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A Z i 7 
本 书 介绍 了 TensorFlow 的 基础 原理 和 应 用 ， 并 侧重 于 结合 实际 例子 讲解 使 用 TensorFlow 
的 方法 。TensorFlow 目前 最 主要 的 应 用 是 在 机 器 学 习 和 深度 学 习 领 域 ， 本 书 讲解 了 全 连接 神经 
网 络 、 卷 积 神经 网 络 、 循 环 神经 网 络 、 深 度 强 化 学 习 等 常见 的 深度 学 习 模 型 ， 还 介绍 了 
TensorBoard、 单 机 多 GPU 并 行 、 分 布 式 并 行 ，TF Learn 和 其 他 TensorFlow 辅助 组 件 。 
希望 快速 上 手 TensorFlow、 了 解 深 度 学 习 技 术 及 其 应 用 实践 的 人 士 ， 以 及 机 器 学 习 、 分 布 
式 计 算 领 域 的 学 生 、 从 业者 。 


未 经 许可 ， 不 得 以 任何 方式 复制 或 抄 费 本 书 之 部 分 或 全 部 内 容 。 
版 权 所 有 ， 侵 权 必 完 。 
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“AI and Machine Learning are going to be a key part of our future. We made TensorFlow 
open source to bring these technologies to everyone and help move the world forward. This 
book is a great example of the TensorFlow community giving back to multiply everyone’s 


efforts. ” 


Engineering Director of TensorFlow, Rajat Monga 


TensorFlow 的 开源 对 整个 学 术 界 及 工业 界 都 产生 了 巨大 的 影响 ， 可 以 比 做 机 器 学 习 
的 Hadoop。 本 书 涵 盖 了 从 多 层 感知 机 、CNN RNN 到 强化 学 习 等 一 系列 模型 的 TensorFlow 
实现 ; 在 详尽 地 介绍 算法 和 模型 的 细节 的 同时 罕 插 实际 的 代码 , 对 帮助 读者 快速 建立 算法 
和 代码 的 联系 大 有 助 益 ; 对 入 门 TensorFlow 和 深度 学 习 的 研究 者 来 说 是 一 份 非常 好 的 学 
习 材 料 。 


360 首席 科学 家 ， 闫 水 成 


TensorFlow 是 基于 Computation Graph HJH JIER, 支持 GPU 和 分 布 式 ， 是 目 
前 最 有 影响 力 的 开源 深度 学 习 系 统 。TensorFlow 的 工程 实现 非常 优秀 ， 拓 > 展 也 非常 灵活 ， 
对 机 器 学 习 尤 其 是 深度 学 习 的 推广 大 有 神 益 。 本 书 结合 了 大 量 的 实际 例子 , 清晰 地 讲解 了 


i 
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如 何 使 用 TensorFlow 构筑 常见 的 深度 学 习 模 型 ， 可 通读 也 可 作为 工具 书 查阅 。 在 本 书 上 
市 前 ， 国 内 还 没有 介绍 TensorFlow 的 技术 书籍 ,推荐 对 TensorFlow 或 深度 学 习 感 兴趣 的 
人 士 阅读 此 书 。 


北京 大 学 计算 机 系 教 授 网 络 与 信息 系统 研究 所 所 长 ， 佬 奖 


深度 学 习 力 至 人 工 智能 正 逐 渐 在 FinTech 领域 发 挥 巨 大 的 作用 , 其 应 用 包括 目 动 报告 
生成 、 金 融 智 能 搜索 、 量 化 交易 和 智能 投 顾 。 而 TensorFlow 为 金融 业 方 便 地 使 用 深度 学 
习 提供 了 可 能 。 本 书 介绍 了 通过 TensorFlow 实现 各 类 神经 网 络 的 案例 ， 非 常 适合 初学 者 
快速 入 门 。 


PPmoney CTO ， 康 德 胜 


TensorFlow 是 Google 开源 的 一 套 深 度 学 习 框架 ,已 发 展 成 为 最 主流 的 深度 学 习 框 以 ， 
目前 在 市 面 上 没有 看 到 关于 TensorFlow 的 中 文书 籍 出 版 。 本 书 一 方面 一 步 步 地 介绍 了 
TensorFlow 的 使 用 方法 ， 使 得 没有 使 用 过 的 人 可 以 很 快 上手 使 用 ; AD, HARTI 
如 卷 积 神经 网 络 、 循 环 神经 网 络 、 强 化 学 习 、 自 编码 器 等 深度 学 习 知识 ,使 得 不 懂 深 度 学 
习 的 人 也 可 以 入 门 。 本 书 在 介绍 基本 知识 和 原理 的 同时 ,用 实例 进行 讲解 , 比较 适合 初学 
者 学 习 使 用 TensorFlow 及 深度 学 习 知 识 。 


格 灵 深 瞳 CTO ， 邓 亚 峰 


《TensorFlow 实战 》 由 浅 入 深 ， 透 过 大 量 的 代码 实例 ， 为 读者 揭 开 次 度 学 习 的 层 层面 
纱 ， 加 深 理 论 理解 的 同时 ， 也 更 好 地 联系 了 实际 应 用 。 


小 米 图 像 算 法 资深 工程 师 ， 万 韶华 
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AlphaGo 在 2017 年 年 初 化 身 Master， 在 奔 城 和 野 狐 等 平台 上 连 胜 中 日 韩 围棋 高 手 ， 
其 中 包括 围棋 世界 冠军 井 山 裕 太 、 朴 廷 桓 、 柯 洁 等 , RARER DY, 总计 取得 60 EH, 
党 败绩。 遥想 2016 年 3 月 ， 当 时 AlphaGo 挑战 李 世 石 还 一 度 不 被 看 好 ， 到 今日 已 经 可 
以 完胜 各 位 高 手 。AlphaGo 背后 神秘 的 推动 力 就 是 TensorFlow 一 一 Google 于 2015 年 11 
月 开源 的 机 器 学 习 及 深度 学 习 框架 。DeepMind 宣布 全 面 迁 移 到 TensorFlow 后 ，AlphaGo 
的 算法 训练 任务 就 全 部 放 在 了 TensorFlow 这 套 分 布 式 框架 上 。 


TensorFlow 在 2015 年 年 底 一 出 现 就 受到 了 极 大 的 关注 ， 在 一 个 月 内 获得 了 GitHub 
上 超过 一 万 颗 星 的 关注 , 目前 在 所 有 的 机 器 学 习 、 深 度 学 习 项 目 中 排名 第 一 , 甚至 在 所 有 
的 Python 项 目 中 也 排名 第 一 。 本 书 将 重点 从 实用 的 层面 ,为 读者 讲解 如 何 使 用 TensorFlow 
实现 全 连接 神经 网 络 、 卷 积 神经 网 络 、 循 环 神经 网 络 ， 乃 至 Deep Q-Network。 同 时 结合 
TensorFlow 原理 ， 以 及 深度 学 习 的 部 分 知识 ， 尽 可 能 让 读者 通过 学 习 本 书 做 出 实际 项 目 
和 成 果 。 


本 书 各 章节 间 没 有 太 强 的 依赖 关系 ， 如 果 读 者 对 某 一 章 感 兴 趣 , 可 以 直接 阅读 。 本 书 
使 用 TensorFlow 1.0.0-rc0 作为 示例 讲解 ,应 该 与 最 新 版 的 TensorFlow 兼容 绝 大 部 分 代码 ， 
可 能 存在 少数 接口 的 更 新 ， 读 者 可 参阅 提示 信息 。 书 中 大 部 分 代码 是 Python 代码 ， 这 也 
是 TensorFlow 支持 的 最 全 、 最 完整 的 接口 语言 。 


本 书 的 前 两 章 介 绍 了 TensorFlow 的 基础 知识 和 概念 。 第 3 章 和 第 4 章 介 绍 了 简单 的 
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示例 及 全 连接 神经 网 络 。 第 $ 章 和 第 6 章 介 绍 了 基础 的 卷 积 神经 网 络 , 以 及 目前 比较 经 典 
的 AlexNet, VGGNet, Inception Net 和 ResNet. 第 7 章 介 绍 了 Word2Vec, RNN 和 LSTM。 
第 8 章 介绍 了 强化 学 习 ， 以 及 基于 深度 学 习 的 策略 网 络 和 估 值 网 络 。 第 9 章 介绍 了 
TensorBoard 、 单 机 多 GPU 并 行 ， 以 及 分 布 式 并 行 。 


第 10 章 介 绍 了 TensorFlow 里 面 的 contrib.leaam 模块 ， 包 含 许多 类 型 的 深 度 学 习 太 尝 
行 的 机 器 学 习 算 法 的 使 用 方法 ， 也 解析 了 这 个 模块 的 分 布 式 Estimator 的 基本 架构 ， 以 及 
如 何 使 用 Estimator 快速 搭建 自己 的 分 布 式 机 器 学 习 模型 架构 ， 进 行 模型 的 训练 和 评估 ， 
也 介绍 了 如 何 使 用 监督 器 更 好 地 监测 和 跟踪 模型 的 训练 及 使 用 DataFrame. 读 取 不 同 的 数 
据 格 式 。 第 11 章 介 绍 了 Contrib 模块 ， 这 个 模块 里 提供 了 许多 机 器 学 习 需 要 的 功能 ， 包 
括 统 计 分 布 、 机 器 学 习 层 、 优 化 函数 、 指 标 ， 等 等 。 本 章 将 简单 介绍 其 中 的 一 些 功能 让 大 
家 了 解 TensorFlow 的 涵盖 范围 ， 并 感受 到 社区 的 积极 参与 和 贡献 度 。 第 10 章 和 第 11 章 
使 用 了 TensorFlow 0.11.0-rc0 版 本 作为 示例 讲解 。 


作者 在 写作 本 书 时 ， 获 得 了 亲人、 同事 、 好 友 的 帮助 ， 在 此 非常 感谢 你 们 的 支持 。 
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1.1 TensorFlow 概要 


Google 第 一 代 分 布 式 机 器 学 习 框 架 DistBelief _， 在 内 部 大 规模 使 用 后 并 没有 选择 开 
源 。 而 后 第 二 代 分 布 式 机 器 学 习 系 统 TensorFlow? 终 于 选择 于 2015 年 11 月 在 GitHub 上 
开源 , HE 2016 年 4 月 补充 了 分 布 式 版 本 , 并 于 2017 年 1 月 发 布 了 1.0 版 本 的 预览 , API 
接口 趋 于 稳定 。 目 前 TensorFlow 仍 处 于 快速 开发 迭代 中 ， 有 大 量 新 功能 及 性 能 优化 在 持 
续 研发 。TensorFlow 最 早 由 Google Brain 的 研究 员 和 工程 师 开 发 ， 设 计 初 衷 是 加 速 机 器 
学 习 的 研究 ， 并 快速 地 将 研究 原型 转化 为 产品 。Google 选择 开源 TensorFlow 的 原因 也 非 
Hi: 第 一 是 希望 通过 社区 的 力量 ， 让 大 家 一 起 完善 TensorFlow。 之 前 Google 内 部 
DistBelief 及 TensorFlow 的 用 户 就 贡献 了 非常 多 的 意见 和 反馈 ,使 得 产品 质量 得 到 了 快速 
提升 ; 第 二 是 回馈 社区 ，Google 希望 让 这 个 优秀 的 工具 得 到 更 多 的 应 用 ， 从 整体 上 提高 
学 术 界 乃至 工业 界 使 用 深度 学 习 的 效率 。 除 了 TensorFlow, Google 也 开源 过 大 量 成 功 的 
ME, 包括 大 名 昂昂 的 移动 操作 系统 Android, 浏览 器 Chromium, 编程 语言 Go、JavaScript 
引擎 V8、 数 据 交 换 框 架 Protobuf、 编 译 工 具 Bazel, OCR 工具 Tesseract 等 共计 数 百 个 高 
质量 的 项 目 。 


TensorFlow 的 官方 网 址 : www.tensorflow.org 
GitHub 网 址 : github.com/tensorflow/tensorflow 
í 
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模型 仓库 网 址 : github.com/tensorflow/models 


TensorFlow 既是 一 个 实现 机 器 学 习 算法 的 接口 ,同时 也 是 执行 机 器 学 习 算 法 的 框 染 。 
它 前 端 支 持 Python, C++, Go, Java 等 多 种 开发 语言 ， 后 端 使 用 CH. CUDA 等 写成 。 
TensorFlow 实现 的 算法 可 以 在 众多 异 构 的 系统 上 方便 地 移植 ,比如 Android 手机 iPhone, 
普通 的 CPU 服务 器 ， 乃 至 大 规模 GPU 集群 ， 如 图 1-1 所 示 。 除 了 执行 深度 学 习 算法 ， 
TensorFlow 还 可 以 用 来 实现 很 多 其 他 算法 ， 包 括 线性 回归 、 还 辑 回归 、 随 机 森林 等 。 
TensorFlow 建立 的 大 规模 深度 学 习 模 型 的 应 用 场景 也 非常 广 ， 包 括 语音 识别 、 目 然 语言 
处 理 、 计 算 机 视觉 、 机 器 人 控制 、 信 息 抽 取 、 药物 研发 、 分 子 活动 预测 等 , 使 用 TensorFlow 
开发 的 模型 也 在 这 些 领 域 获 得 了 最 前 治 的 成 采 。 








Re: Peay a ae eet Kan See FNS pos 3 
as 
1-1 TensorFlow 基础 架构 


为 了 研究 超大 规模 的 深度 神经 网 络 ，Google 在 2011 年 启动 了 Google Brain 项 目 , 同 
时 开发 了 第 一 代 的 分 布 式 机 器 学 习 框 架 DistBelief。 有 超过 50 个 Google 的 团队 在 他 们 的 
产品 中 使 用 了 DistBelief， 比 如 Google Search 中 的 搜索 结果 排序 、Google Photos 中 的 图 
片 标注 Google Translate 中 的 自然 语言 处 理 等 ,都 依赖 于 DistBelief 建立 的 深度 学 习 模 型 。 
Google 基于 使 用 DistBelief 时 的 经 验 及 训练 大 规模 分 布 式 神经 网 络 的 需求 ， 开 发 了 
TensorFlow 一 一 第 二 代 分 布 式 机 器 学 习 算法 实现 框架 和 部 署 系 统 。Google 将 著名 的 
Inception Net 从 DistBelief 移植 到 TensorFlow 后 ,获得 了 6 倍 的 训练 速度 提升 。 目 前 , 在 
Google 内 部 使 用 TensorFlow 的 项 目 呈 爆炸 性 的 增长 趋势 ， 在 2016 年 已 经 有 超过 2000 个 
项 目 使 用 了 TensorFlow 建立 的 深度 学 习 模 型 ， 而 且 这 个 数字 还 在 高 速 增长 中 ， 如 图 1-2 
所 示 。 
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# of directories containing model description files 
3000 


Unique project directories 





l-2 TensorFlow 在 Google 的 使 用 趋势 


TensorFlow 使 用 数据 流 式 图 来 规划 计算 流程 ， 它 可 以 将 计算 映射 到 不 同 的 硬件 和 操 
作 系 统 平台 。 人 和 凭借 着 统一 的 架构 ，TensorFlow 可 以 方便 地 部 署 到 各 种 平台 ， 大 大 简化 了 
真实 场景 中 应 用 机 器 学 习 的 难度 。 使 用 TensorFlow 我 们 不 需要 给 大 规模 的 模型 训练 和 小 
规模 的 应 用 部 闭 开 发 两 套 不 同 的 系统 ， 避 免 了 同时 维护 两 套 程序 的 成 本 ，TensorFlow 给 
训练 和 预测 的 共同 部 分 提供 了 一 个 恰当 的 抽象 。TensorFlow 的 计算 可 以 表示 为 有 状态 的 
数据 流 式 图 , 对 于 大 规模 的 神经 网 络 训 练 , TensorFlow 可 以 让 用 户 简 单 地 实现 并 行 计 算 ， 
同时 使 用 不 同 的 硬件 资源 进行 训练 , 同步 或 异步 地 更 新 全 局 共享 的 模型 参数 和 状态 。 将 一 
AMER TAI TensorFlow 算法 改造 成 并 行 的 成 本 也 是 非常 低 的 ， 通常 只 需要 对 小 部 分 代码 进 
行 改写 。 相 比 于 DistBelief，TensorFlow 的 计算 模型 更 简洁 灵活 ， 计 算 性 能 显著 提升 ， 同 
时 支持 更 多 的 异 构 计算 系统 。 大 量 Google 内 部 的 DistBelief 用 户 转向 了 TensorFlow, fh 
们 使 用 TensorFlow 进行 各 种 研究 和 产品 开发 ， 包 括 在 手机 上 跑 计算 机 视觉 模型 ， 或 是 训 
练 有 效 百 亿 人 参数 、 数 干 亿 数 据 的 神经 网 络 模型 。 昌 然 绝 大 多 数 的 TensorFlow 应 用 都 在 机 
aa RRS Ata, (E TensorFlow 抽象 出 的 数据 流 式 图 也 可 以 应 用 在 通用 数值 计算 
和 符号 计算 上 ， 比 如 分 形 图 计算 或 者 偏 微分 方程 数值 求解 。 表 1-1 所 示 为 TensorFlow 的 
主要 技术 特性 。 


表 1-1 TensorFlow 的 主要 技术 特性 


编程 模型 Dataflow-like model ( 数据 流 模型 ) 

ae Python, C++, Go, Rust, Haskell, Java ( 还 有 非 官方 的 Julia、JavaScript、 
úi R 的 支持 ) 

部 署 Code once, run everywhere ( 一 次 编写 ， 各 处 运行 ) 
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CPU (Linux, Mac, Windows, Android, iOS ) 
计算 资源 GPU (Linux, Mac, Windows ) 
TPU (Tensor Processing Unit， 张 量 计算 单元 ， 主 要 用 作 推 断 ) 
Local Implementation ( 单机 实现 ) 
Distributed Implementation ( 分布 式 实现 ) 
Google Cloud Platform ( 谷歌 云 平 台 ) 
Hadoop File System ( Hadoop 分 布 式 文 件 系统 ) 
Math Graph Expression ( 数学 计算 图 表达 ) 
Auto Differentiation ( 自动 微分 ) 
Common Subexpression Elimination ( 共同 子 图 消除 ) 
Asynchronous Kernel Optimization ( 异步 核 优 化 ) 
Communication Optimization ( 通信 优化 ) 
Model Parallelism ( 模型 并 行 ) 
Data Parallelism ( 数据 并 行 ) 
Pipeline ( 流水 线 ) 


优化 


1.2 TensorFlow 编程 模型 简介 


1.2.1 ”核心 概念 


TensorFlow 中 的 计算 可 以 表示 为 一 个 有 向 图 ( directed graph )， 或 称 计 算 图 
(computation graph )， 其 中 每 一 个 运算 操作 (operation ) 将 作为 一 个 节点 (node )， TRS 
节点 之 间 的 连接 称 为 边 (edge )。 这 个 计算 图 描述 了 数据 的 计算 流程 ， 它 也 负责 维护 和 更 
新 状态 ,用 户 可 以 对 计算 图 的 分 支 进 行 条 件 控制 或 循环 操作 。 用 户 可 以 使 用 Python、C++、 
Go, Java 等 几 种 语言 设计 这 个 数据 计算 的 有 向 图 。 计 算 图 中 每 一 个 节点 可 以 有 任意 多 个 
输入 和 任意 多 个 输出 , 每 一 个 节点 描述 了 一 种 运算 操作 , 节点 可 以 算是 运算 操作 的 实例 化 
(instance )。 在 计算 图 的 边 中 流动 (flow ) 的 数据 被 称 为 张 量 (tensor ), 故 得 名 TensorFlow. 
.而 tensor 的 数据 类 型 ， 可 以 是 事先 定义 的 , 也 可 以 根据 计算 图 的 结构 推断 得 到 。 有 一 类 特 
殊 的 边 中 没有 数据 流动 ， 这 种 边 是 依赖 控制 (control dependencies )， 作 用 是 让 它 的 起 始 
节点 执行 完 之 后 再 执行 目标 节点 , 用 户 可 以 使 用 这 样 的 边 进行 灵活 的 条 件 控制 , 比如 限制 
内 存 使 用 的 最 高 峰值 。 下 面 是 用 Python 设计 并 执行 计算 图 的 示例 。 计 算 图 示例 如 图 1-3 
所 示 。 


b 4 i 
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import tensorflow as tf 
b=tf.Variable(tf.zeros({100])) # 生成 166 维 的 向 量 ， 初 始 化 为 8 
W=tf.Variable(tf. random_uniform([784,100],-1,1)) # 生成 784x166 的 随机 和 矩 阵 W 


x=tf.placeholder(name="x" ) # 47.89 Placeholder 
relu=tf.nn.relu(tf.matmul(W, x)+b) # ReLU(Wx+b) 


C=[...] # 根据 ReLU 函数 的 结果 计算 Cost 

s=tf.Session() : 

for step in range(@, 10): 
input=...construct 100-D input array... # 为 输入 创建 一 个 100 维 的 向 量 
result=s.run(C, feed dict={x: input}) # 获取 Cost, HAMA x 
print(step, result) 





图 1-3 ”计算 图 示例 


一 个 运算 操作 代表 了 一 种 类 型 的 抽象 运算 , 比如 矩阵 乘法 或 者 向 量 加 法 。 运 算 操 作 可 
以 有 自己 的 属性 , 但 是 所 有 属性 必须 被 预先 设置 , 或 者 能 在 创建 计算 图 时 被 推断 出 来 。 通 
过 设置 运算 操作 的 属性 可 以 用 来 支持 不 同 的 tensor 元 素 类 型 ,比如 让 向 量 加 法 支持 浮 点 数 
(float) 或 者 整数 (int )。 运 算 核 (kernel) 是 一 个 运算 操作 在 某 个 具体 硬件 (比如 在 CPU 
或 者 GPU 中 ) 的 实现 。 在 TensorFlow 中 ， 可 以 通过 注册 机 制 加 入 新 的 运算 操作 或 者 运算 
核 。 表 1-2 所 示 为 部 分 TensorFlow 内 建 的 运算 操作 。 


表 1-2 TensorFlow 内 建 的 运算 操作 


类 型 示 例 
标量 运算 Add, Sub, Mul, Div, Exp, Log, Greater, Less, Equal 
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续 表 
类 型 不 “ 例 

向 量 运算 Concat, Slice, Split, Constant, Rank, Shape, Shuffle 

和 矩阵 运算 MatMul, MatrixInverse, MatrixDeterminant 

TRSA Variable, Assign, AssłġnAdd 

神经 网 络 组 件 SoftMax Sigmoid, ReLU, Convolution2D, MaxPooling 

储存 、 恢 复 Save, Restore 

队列 及 同步 运算 Enqueue, Dequeue, MutexAcquire, MutexRelease 

控制 流 Merge, Switch, Enter, Leave, Nextlteration 


Session 是 用 户 使 用 TensorFlow 时 的 交互 式 接口 。 用 户 可 以 通过 Session 的 Extend 方 
法 添加 新 的 节点 和 边 , 用 以 创建 计算 图 ,然后 就 可 以 通过 Session 的 Run 方法 执行 计算 图 : 
用 户 给 出 需要 计算 的 节点 ， 同 时 提供 输入 数据 ，TensorFlow 就 会 自动 寻找 所 有 需要 计算 
的 节点 并 按 依赖 顺序 执行 它们 。 对 绝 大 多 数 的 用 户 来 说 , 他 们 只 会 创建 一 次 计算 图 , 然后 
反复 地 执行 整个 计算 图 或 是 其 中 的 一 部 分 子 图 ( sub-graph )。 


在 大 多 数 运算 中 , 计算 图 会 被 反复 执行 多 次 ,而 数据 也 就 是 tensor 并 不 会 被 持续 保留 
只 是 在 计算 图 中 过 一 遍 。Variable 是 一 类 特殊 的 运算 操作 , 它 可 以 将 一 些 需 要 保留 的 tensor 
储存 在 内 存 或 显存 中 ， 比 如 神经 网 络 模型 中 的 系数 。 每 一 次 执行 计算 图 后 ，Variable 中 的 
数据 tensor 将 会 被 保存 , 同时 在 计算 过 程 中 这 些 tensor 也 可 以 被 更 新 , 比如 神经 网 络 每 一 
次 mini-batch 训练 时 ， 神 经 网 络 的 系数 将 会 被 更 新 并 保存 。 使 用 Variable， 可 以 在 计算 图 
中 实现 一 些 特 殊 的 操作 ， 比 如 Assign、AssignAdd (+=) 或 AssignMul ( *= ), 


1.2.2 ”实现 原理 


TensorFlow 有 一 个 重要 组 件 client， 顾 名 思 义 ， 就 是 客户 端 ， 它 通过 Session 的 接口 
5 master 及 多 个 worker 相连 。 其 中 每 一 个 worker 可 以 与 多 个 硬件 设备 ( device ) 相连 ， 
比如 CPU 或 GPU， 并 负责 管理 这 些 硬件 。 而 master 则 负责 指导 所 有 worker 按 流 程 执行 
计算 图 。TensorFlow 有 单机 模式 和 分 布 式 模式 两 种 实现 , 其 中 单机 指 client, master, worker 
全 部 在 一 台 机 器 上 的 同一 个 进程 中 ; 分 布 式 的 版 本 允许 client, master, worker 在 不 同 机 
器 的 不 同 进程 中 , 同时 由 集群 调度 系统 统一 管理 各 项 任务 。 图 1-4 所 示 为 单机 版 和 分 布 式 
版 本 的 示例 图 。 
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client master 
process ER process 


run 


single process 


execute 


subgraph 


worker worker worker 
process 1 process 2 process 3 
a Gee | E Em 
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图 1-4 TensorFlow 单机 版 本 和 分 布 式 版 本 的 示例 图 


TensorFlow 中 每 一 个 worker 可 以 管理 多 个 设备 ,每 一 个 设备 的 name 包含 硬件 类 别 、 
编号 、 任 务 号 (单机 版 本 没有 )， 示 例如 下 。 


单机 模式 : /job:localhost/device:cpu:0 





分 布 式 模式 : /job:worker/task:17/device:gpu:3 


TensorFlow 为 CPU 和 GPU 提供 了 管理 设备 的 对 象 接口 , 每 一 个 对 象 负责 分 配 、 释放 
设备 的 内 存 ， 以 及 执行 节点 的 运算 核 。TensorFlow 中 的 tensor 是 多 维 数 组 , 数据 类 型 支持 
8 位 至 64 位 的 int， 以 及 IEEE 标准 的 float、double 和 复数 型 ， 同 时 还 支持 任意 字符 串 。 
每 一 个 设备 有 单独 的 allocator 负责 储存 各 种 数据 类 型 的 tensor, [AJAY tensor 的 引用 次 数 也 
会 被 记录 ， 当 引用 数 为 0 时 ， 内存 将 被 释放 。 如 图 1-5 所 示 ，TensorFlow 支持 的 设备 包括 
x86 架构 CPU、 手 机 上 的 ARM CPU, GPU, TPU (Tensor Processing Unit, Google 专门 
为 大 规模 深度 学 习 计 算 定 制 的 芯片 ， 但 目前 还 没有 公开 发 布 的 计划 )， 例如 AlphaGo 在 
与 李 世 石 比赛 时 就 大 量 使 用 了 TPU 集群 的 计算 资源 。 





手机 GPU 





1-5 TensorFlow 支持 的 设备 
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TPU 


1-5 TensorFlow 支持 的 设备 ( 续 ) 


在 只 有 一 个 硬件 设备 的 情况 下 , 计算 图 会 按 依赖 关系 被 顺序 执行 。 当 一 个 节点 的 所 有 
上 游 依 赖 都 被 执行 完 时 (依赖 数 为 0 )， 这 个 节点 就 会 被 加 入 ready queue 以 等 待 执行 。 同 
时 ， 它 下 游 所 有 节点 的 依赖 数 减 1， 实 际 上 这 就 是 标准 的 计算 拓扑 序 的 方式 。 当 有 多 个 设 
it, AURA 了， 难点 有 二 : 


(1) 每 一 个 节点 该 让 什么 硬件 设备 执行 。 
(2 ) 如 何 管理 节点 间 的 数据 通信 。 


对 第 1 个 问题 ，TensorFlow 设计 了 一 套 为 节点 分 配 设备 的 策略 。 这 个 策略 首先 需要 
计算 一 个 代价 模型 ,这 个 代价 模型 估算 每 一 个 节点 的 输入 、 输 出 tensor 的 大 小 , 以 及 所 和 需 
要 的 计算 时 间 。 代价 模 型 一 部 分 由 人 工 经 验 制定 的 启发 式 规则 得 到 , 男 一 部 分 则 是 由 对 一 
小 部 分 数据 进行 实际 运算 而 测量 得 到 的 。 接 下 来 , 分 配 策略 会 模拟 执行 整个 计算 图 , 首先 
会 从 起 点 开始 , 按 拓扑 序 执行 。 在 模拟 执行 一 个 节点 时 , 会 把 每 一 个 能 执行 这 个 节点 的 设 
备 都 测试 一 遍 , 这 个 测试 会 考虑 代价 模型 对 这 个 节点 的 计算 时 间 的 估算 , 加 上 数据 传 到 这 
个 设备 上 所 需要 的 通信 时 间 , 最 后 选择 一 个 综合 时 间 最 短 的 设备 作为 这 个 节点 的 运算 设备 。 
可 以 看 到 这 个 策略 是 一 个 简单 的 贪 梦 策略 , 它 不 能 确保 找到 全 局 最 优 解 , 但 是 可 以 用 较 快 
的 速度 找到 一 个 不 错 的 节点 运算 分 配方 案 。 同时 除了 运行 时 间 , 内 存 的 最 高 使 用 峰值 也 会 
被 考虑 进来 。 目 前 TensorFlow 的 节点 分 配 策略 仍 在 不 断 研 发 、 优 化 ， 将 来 可 能 使 用 一 个 
强化 学 习 (Reinforcement Learning ) 的 神经 网 络 来 辅助 决策 。 此 外 ，TensorFlow 还 允许 
用 户 对 节点 的 分 配 设置 限制 条 件 ， 比 如 “只 给 这 个 节点 分 配 GPU 类 型 的 设备 ”,“ 只 给 这 
个 节点 分 配 /job:workertask:17 上 的 设备 "这 个 节点 分 配 的 设备 必须 和 variable13 一致 ”。 
对 于 这 些 限制 条 件 TensorFlow 会 先 计 算 每 个 节点 可 以 使 用 的 设备 ， 再 使 用 并 查 集 
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(union-find ) 算法 找到 必须 使 用 同一 个 设备 的 节点 。 


我 们 再 来 看 第 2 个 问题 , 当 给 节点 分 配 设备 的 方案 被 确定 , 整个 计算 图 就 会 被 划分 为 
许多 子 图 ， 使 用 同一 个 设备 并 且 相 邻 的 节点 会 被 划分 到 同一 个 子 图 。 然 后 计算 图 中 从 x 
到 yy 的 边 , 会 被 取代 为 一 个 发 送 端的 发 送 节 点 ( send node )、 一 个 接收 端的 接收 节点 ( receive 
node )， 以 及 从 发 送 节 点 到 接收 节点 的 边 ， 如 图 1-6 所 示 。 





1-6 TensorFlow 的 通信 机 制 


这 样 就 把 数据 通信 的 问题 转变 为 发 送 节 点 和 接收 节点 的 实现 问题 ,用 户 不 需要 为 不 同 
的 硬件 环境 实现 通信 方法 。 同时 两 个 子 图 之 间 可 能 会 有 多 个 接收 节点 , 如 果 这 些 接收 节点 
接收 的 都 是 同一 个 tensor， 那 么 所 有 这 些 接收 节点 会 被 自动 合并 为 一 个 ,避免 了 数据 的 反 
复 传输 或 者 重复 占用 设备 内 存 。 总 结 一 下 ，TensorFlow 的 通信 机 制 很 优秀 ， 发 送 节 点 和 
接收 市 点 的 设计 简化 了 底层 的 通信 模式 , 用 户 无 须 设计 节点 之 间 的 通信 流程 , 可 以 让 同一 
套 代码 , 目 动 扩展 到 不 同 硬件 环境 并 处 理 复 杂 的 通信 流程 。 图 1-7 所 示 为 CPU 与 GPU 之 
间 通 信 的 流程 。 













ait SS 
learning rate = 


1-7 CPU 与 GPU 的 通信 过 程 


同时 , 从 单机 单 设 备 的 版 本 改造 为 单机 多 设备 的 版 本 也 非常 容易 , 下 面 的 代码 只 添加 
了 加 粗 的 这 一 行 ， 就 实现 了 从 一 块 GPU 训练 到 多 块 GPU 训练 的 改造 。 
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for i in range(8): 
for d in range(4): 
with tf.device("/gpu:%d" % d): 
input = x[i] if d is 6 else m[d-1] 
m[d], c[d] = LSTMCell(input, mprev[d], cprev[d]) 
mprev[d] = m[d] 
cprev[d] = c[d] 


TensorFlow 分 布 式 执行 时 的 通信 和 单机 设备 间 的 通信 很 像 ， 只 不 过 是 对 发 送 厄 点 和 
接收 节点 的 实现 不 同 : 比如 从 单机 的 CPU 到 GPU 的 通信 ， 变 为 不 同 机 器 之 间 使 用 TCP 
或 者 RDMA 传输 数据 。 同 时 ,容错 性 也 是 分 布 式 TensorFlow 的 一 个 特点 。 故 障 会 在 两 种 
情况 下 被 检测 出 来 ， 一 种 是 信息 从 发 送 节 点 传输 到 接收 节点 失败 时 ， 球 一 种 是 周期 性 的 
worker 心跳 检测 失败 时 。 当 一 个 故障 被 检测 到 时 ， 整 个 计算 图 会 被 终止 并 重启 。 其 中 
Variable node 可 以 被 持久 化 ，TensorFlow 支持 检查 点 (checkpoint ) 的 保存 和 恢复 ， 每 一 
个 Variable node 都 会 链接 一 个 Save node, 每 隔 几 轮 迭 代 就 会 保存 一 次 数据 到 持久 化 的 储 
存 系统 ,比如 一 个 分 布 式 文件 系统 。 同 样 ,每 一 个 Variable node 都 会 连接 一 个 Restore node, 
在 每 次 重启 时 会 被 调用 并 恢复 数据 。 这 样 在 发 生 故 障 并 重启 后 ， 模 型 的 参数 将 得 以 保留 ， 
训练 将 从 上 一 个 checkpoint 恢复 而 不 需要 完全 从 头骨 来 。 


1-8 所 示 为 使 用 TensorFlow 在 GPU 集群 进行 分 布 式 训练 的 性 能 对 比 图 ， 在 GPU 
数量 小 于 16 时 ， 基 本 没有 性 能 损耗 。 直 到 50 块 GPU 时 ， 依 然 可 以 获得 80% 的 效率 ， 也 


就 是 40 倍 于 单 GPU 的 提速 。 在 100 块 GPU 时 , 最 终 可 以 获得 56 倍 的 提速 , 也 就 是 56% 
的 使 用 效率 ， 可 以 看 到 TensorFlow 在 大 规模 分 布 式 系统 上 有 相当 高 的 并 行 效率 。 


Training Inception with Distributed TensorFlow 


Speedup versus one GPU 
QJ 
O 





Number of GPUs 


1-8 TensorFlow 分 布 式 训练 性 能 
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1 TensorFlow 基础 I” 


1.2.3 ”拓展 功能 


在 深度 学 习 乃 至 机 器 学 习 中 ， 讨 算 cost function 的 梯度 都 是 最 基本 的 需求 ， 因 此 
TensorFlow 也 原生 支持 自动 求 导 。 比 如 一 个 tensor C 在 计算 图 中 有 一 组 依赖 的 tensor {X}, 
那么 在 TensorFlow 中 可 以 自动 求 出 {4C/dxXxj。 这 个 求解 梯度 的 过 程 也 是 通过 在 计算 图 拓展 
节点 的 万 式 实现 的 ， 只 不 过 求 梯度 的 节点 对 用 户 是 透明 的 。 


如 图 1-9 所 示 ， 当 TensorFlow 计算 一 个 tensor C 关于 tensor 了 的 梯度 时 ， 会 先 寻 找 
从 7 到 C 的 正 向 路 径 , 然后 从 C 回溯 到 了， 对 这 条 回溯 路 径 上 的 每 一 个 节点 增加 一 个 对 应 
求解 梯度 的 节点 ， 并 根据 链 式 法 则 (chain mle) 计算 总 的 梯度 ， 这 就 是 大 名 电 蝇 的 反 向 
传播 ( back propagation, BP ) 算 法 。 这些 新 增 的 节点 会 计算 梯度 函数 ( gradient function ), 
tedn[db,dW,dx] = tf.gradients(C, [b,W,x])。 









dRelyU 


1-9 TensorFlow 自动 求 导 示例 


目 动 求 导 虽然 对 用 户 很 方便 ， 但 伴随 而 来 的 是 TensorFlow 对 计算 的 优化 (比如 为 节 
点 分 配 设备 的 策略 ) HR, 尤其 是 内 存 使 用 的 问题 。 在 正 向 执行 计算 图 ,也 就 是 进 
行 推断 (inference ) 时 , 因为 确定 了 执行 顺序 , 使 用 经 验 的 规则 是 比较 容易 取得 好 效果 的 ， 
tensor 在 产生 后 会 迅速 地 被 后 续 节 点 使 用 掉 , 不 会 持续 占用 内 存 。 然 而 在 进行 反 向 传播 计 
算 梯 度 时 , 经 常 需要 用 到 计算 图 开头 的 tensor, 这 些 tensor 可 能 会 占用 大 量 的 GPU 显存 ， 
也 限制 了 模型 的 规模 。 目 前 TensorFlow 仍 在 持续 改进 这 些 问题 ， 包 括 使 用 更 好 的 优化 方 
法 ; 重新 计算 tensor， 而 不 是 保存 tensor; 将 tensor 从 GPU 显存 移 到 CPU 控制 的 主 内 存 
中 。 


TensorFlow 还 支持 单独 执行 子 图 ， 用 户 可 以 选择 计算 图 的 任意 子 图 ， 并 沿 某 些 边 输 
入 数据 ， 同 时 从 另 一 些 边 获取 输出 结果 。TensorFlow 用 节点 名 加 port 的 形式 指定 数据 ， 
A 11 A 
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下 TensorFlow 实战 


例如 bar:0 表示 名 为 bar 的 节点 的 第 1 个 输出 。 在 调用 Session 的 Run 方法 执行 子 图 时 ， 

-用户 可 以 选择 一 组 输入 数据 的 映射 ， 比 如 name:port -> tensor; 同时 用 户 必须 指定 一 组 输 
出 数据 ， 比 如 name[:portl ， 来 选择 执行 哪些 节点 ， 如 果 port 也 被 选择 ， 那 么 这 些 port Hi 
出 的 数据 将 会 作为 Run 函数 调用 的 结果 返回 。 然 后 整个 计算 图 会 根据 输入 和 输出 进行 调 
整 ， 输 入 数据 的 节点 会 连接 一 个 feed node， 输 出 数据 的 节点 会 连接 一 个 fetch node, 
TensorFlow 会 根据 输出 数据 目 动 推导 出 哪些 万 点 需要 被 执行 。 如 图 1-10 所 示 ， 我 们 选择 
用 一 些 数据 蔡 换 掉 b， 那 么 feed node SAR b 连接 到 co 同时, 我 们 只 需要 获取 f:0 的 结 
果 ， 所 以 一 个 fetch node 便 会 连接 到 f, XE d Ale 就 不 会 被 执行 ， 所 以 最 终 需 要 执行 的 
节点 便 只 有 a、c 和 f。 


fetch 





1-10 TensorFlow 子 图 的 执行 示例 


TensorFlow 支持 计算 图 的 控制 流 , 比如 if-condition 和 while-loop， 因 为 大 部 分 机 器 学 
习 算 法 需要 反复 迭代 ， 所 以 这 个 功能 非常 重要 。TensorFlow 提供 Switch 和 Merge 两 种 
operator， 可 以 根据 某 个 布尔 值 跳 过 某 段 子 图 ， 然 后 把 两 段子 图 的 结果 合并 ， 实 现 if-else 
的 功能 。 同 时 还 提供 了 Enter, Leave 和 Nextlteration 用 来 实现 循环 和 迭代 。 在 使 用 高 阶 语 
言 (比如 Python ) 的 if-else, while, for 控制 计算 流程 时 ， 这 些 控制 流 会 被 自动 编译 为 上 
述 那些 operator， 方 便 了 用 户 。Loop 中 的 每 一 次 循环 会 有 唯一 的 tag， 它 的 执行 结果 会 输 
出 成 frame, 这 样 用 户 可 以 方便 地 查询 结果 日 志 。 同 时 , TensorFlow 的 控制 流 支持 分 布 式 ， 
每 一 轮 循环 中 的 节点 可 能 分 布 在 不 同 机 器 的 不 同 设备 上 。 分 布 式 控制 流 的 实现 方式 也 是 依 
靠 计算 图 的 改写 ,循环 内 的 节点 会 被 划分 到 不 同 的 小 的 子 图 ,每 一 个 子 图 会 连接 控制 节点 ， 
实现 自己 的 循环 , 同时 将 循环 终止 等 信号 发 送 到 其 他 子 图 。 同 时 , 控制 流 也 提供 了 对 计算 
图 中 隐 含 的 梯度 计算 节点 的 支持 , TensorFlow 会 将 控制 流 中 的 自动 求 导 功能 隐藏 到 底层 ， 
用 户 不 需要 考虑 这 部 分 功能 的 逻辑 设计 。 


TensorFlow 的 数据 输入 除了 通过 feed node， 也 有 特殊 的 input node 可 以 让 用 户 直接 
输入 文件 系统 的 路 径 ， 例 如 一 个 Google Cloud Platform 的 文件 路 径 。 如 果 从 feed node 
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输入 数据 ， 那么 数据 必须 从 client 读 取 ,， 并 通过 网 络 传 到 分 布 式 系统 的 其 他 节点 ， 这 样 会 
有 较 大 的 网 络 开销 , 直接 使 用 文件 路 径 , 可 以 让 worker 市 点 读 取 本 地 的 文件 , 提高 效率 。 


队列 ( queue ) 也 是 TensorFlow 任务 调度 的 一 个 重要 特性 ， 这 个 特性 可 以 让 计算 图 的 
不 同 节 点 异步 地 执行 。 使 用 队列 的 一 个 目的 是 当 一 个 batch 的 数据 运算 时 ,提前 从 磁盘 读 
取 下 一 个 batch 的 数据 ， 减 少 磁 盘 VO 阻塞 时 上 间 。 同 时 还 可 以 异步 地 计算 许多 梯度 ， 再 组 
合成 一 个 更 复杂 的 整体 梯度 。 除 了 传统 的 先进 先 出 ( FIFO ) 队列 ，TensorFlow 还 实现 了 
洗 牌 队列 (shuffling queue), 用 以 满足 某 些 机 器 学 习 算法 对 随机 性 的 要 求 , DONT RAR 
数 优化 或 者 模型 收敛 会 有 帮助 。 


容器 (Container ) 是 TensorFlow 中 一 种 特殊 的 管理 长 期 变量 的 机 制 ， 例 如 Variable 
对 象 就 储存 在 容器 中 。 每 一 个 进程 会 有 一 个 默认 的 容器 一 直 存在 , 直到 进程 结束 。 使 用 容 
锋 甚 至 可 以 人 允许 不 同 计 算 图 的 不 同 Session 之 间 共 享 一 些 状态 值 。 


1.2.4 ”性 能 优化 


在 TensorFlow 中 有 很 多 高 度 抽象 的 运算 操作 ， 这 些 运 算 操 作 可 能 是 由 很 多 层 复 杂 的 
计算 组 合 而 成 的 , 当 有 多 个 高 阶 运算 操作 同时 存在 时 , 它们 的 前 几 层 可 能 是 完全 一 致 的 重 
复 计 算 (输入 及 运算 内 容 均一 至 )。 这 时 ，TensorFlow 会 自动 识别 这 些 重复 计算 ， 同 时 改 
SHAR, 只 执行 一 次 重复 的 计算 , 然后 把 这 几 个 高 阶 运算 操作 后 续 的 计算 连接 到 这 些 共 
有 的 计算 上 ， 避 免 元 余 计算 。 

同时 , 巧妙 地 安排 运算 的 顺序 也 可 以 极 大 地 改善 数据 传输 和 内 存 占 用 的 问题 。 比 如 适 
当 调整 顺序 以 错开 某 些 数据 同时 存在 于 内 存 的 时 间 ， 对 于 显存 容量 比较 小 的 GPU 来 说 至 
关 重 要 。TensorFlow 也 会 精细 地 安排 接收 节点 的 执行 时 间 ， 如 果 接 收 节 点 过 早 地 接收 数 
据 ， 那 么 数据 会 堆积 在 设备 的 内 存 中 ， 所 以 TensorFlow 设计 了 策略 让 接收 节 MATERIAE AE 
要 数据 来 计算 时 才 开 始 接收 数据 。 

TensorFlow 也 提供 寞 步 计算 的 支持 ， 这 样 线程 执行 时 就 无 须 一 直 等 待 某 个 节点 计算 

。 有 一 些 节点 ， 比 如 receive, enqueue, dequeue 就 是 异步 的 实现 ， 这 些 节点 不 必 因 
om IO 而 阻塞 一 个 线程 继续 执行 其 他 任务 。 

TensorFlow 同时 支持 几 种 高 度 优化 的 第 三 方 计算 库 。 


线性 代数 计算 库 : 
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e Eigen? 
矩阵 乘法 计算 库 : 


e BLAS* 
e cuBLAS (CUDA BLAS)’ 


深度 学 习 计算 库 ; 


6 
e cuda-convnet 


e cuDNN’ 


很 多 机 器 学 习 算 法 在 数字 精度 较 低 时 依然 可 以 正常 工作 ，TensorFlow 也 支持 对 数据 
进行 压缩 。 比 如 将 32-bit 浮 点 数 有 损 地 压缩 为 16-bit 祥 点 数 ,这 样 做 可 以 降低 在 不 同 机 器 、 
不 同 设备 之 间 传 输 数 据 时 的 网 络 开销 ， 提 高 数据 通信 效率 。 


TensorFlow 提供 了 三 种 不 同 的 加 速 神经 网 络 训练 的 并 行 计 算 模 式 。 


(1) 数据 并 行 : 通过 将 一 个 mini-batch 的 数据 放 在 不 同 设备 上 计算 ， 实现 梯度 计算 的 
并 行 化 。 例 如 ， 将 有 1000 条 样本 的 mini-batch 拆 分 成 10 份 100 条 样本 的 数据 并 行 计算 ， 
完成 后 将 10 份 梯度 数据 合并 得 到 最 终 梯 度 并 更 新 到 共享 的 参数 服务 器 ( parameter server )。 
这 样 的 操作 会 产生 许多 完全 一 样 的 子 图 的 副本 , 在 client 上 可 以 用 一 个 线程 同步 控制 这 些 
副本 运算 的 循环 。TensorFlow 中 的 数据 并 行 如 图 1-11 所 示 。 





Asynchronous Data Parallelism 


图 1-11 TensorFlow 中 的 数据 并 行 
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上 述 这 个 操作 还 可 以 改 成 异步 的 , 使 用 多 个 线程 控制 梯度 计算 , 每 一 个 线程 计算 完 后 
异步 地 更 新 模型 参数 。 同 步 的 方式 相当 于 用 了 一 个 较 大 的 mini-batch ( 当然 其 中 的 批 标 准 
{£ (batch normalization) 还 是 独立 的 )， 其 优点 是 没有 梯度 干扰 ， 缺点 是 容错 性 差 ， 一 台 
机 锋 出 现 问 题 后 可 能 需要 重 跑 。 异步 的 方式 的 优点 是 有 一 定 的 容错 性 , 但 是 因为 梯度 干扰 
的 问题 ， 导 致 每 一 组 梯度 的 利用 效率 都 下 降 了 。 男 外 一 种 就 是 混合 式 ， 比 如 两 组 异步 的 ， 
其 中 每 组 有 50 份 同步 的 训练 。 从 图 1-12 中 可 以 看 到 , 一 般 来 说 , 同步 训练 的 模型 精度 较 
好 


0.795 


tare 
PT, z 


= # 
0,799 - AA yas? $ 
~ re 





= async50 
0.775 == sync50 
ves SyNCI0+2 
0.770 y 
60 10 80 $0 100 110 


hours 
1-12 ”数据 并 行 中 同步 、 异 步 训 练 的 性 能 对 比 


1-13 所 示 为 使 用 10 块 GPU 和 50 块 GPU 训练 Inception 时 的 对 比 图 ， 要 达到 相同 
的 精度 ，50 块 GPU 需要 的 时 间 只 是 10 块 的 1/4 左右 。 


i 50 replicas 
: ; 10 replicas 
~ 18.6 vs. 80.3 (4.1X) 











Hours 


1-13 10 快 GPU 和 50 块 GPU 的 训练 效率 对 比 


相 比 于 模型 并 行 ， 数据 并 行 的 计算 性 能 损耗 非常 小 ,尤其 是 对 于 sparse 的 model. Al 
为 不 同 mini-batch 之 间 干 扰 的 概率 很 小 , 所 以 经 常 可 以 同时 进行 很 多 份 (replicas ) 数据 并 
行 ， 甚 至 可 高 达 上 于 份 。 表 1-3 所 示 为 Google 的 各 个 项 目 中 使 用 的 数据 并 行 的 份 数 或 者 
GPU 数目 。 
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表 1-3 Google 使 用 数据 并 行 的 项 目 


RankBrain | 500 份 数据 并 行 

ImageNet Inception Model 50 块 GPU, 40 倍 提速 

SmartReply 16 份 数据 并 行 ， 每 一 份 包含 多 块 GPU 
Language model on “One Billion Word” 32 tk GPU 


(2) 模型 并 行 : 将 计算 图 的 不 同 部 分 放 在 不 同 的 设备 上 运算 , 可 以 实现 简单 的 模型 并 
行 ， 其 目标 在 于 减少 每 一 轮训 练 迭 代 的 时 间 ， 不 同 于 数据 并 行 同时 进行 多 份 数据 的 训练 。 
模型 并 行 需要 模型 本 身 有 大 量 可 以 并 行 , 且 互 相 不 依赖 或 者 依赖 程度 不 高 的 子 图 。 EAA 
的 硬件 环境 上 性 能 损耗 不 同 ， 比 如 在 单 核 的 CPU 上 使 用 SIMD 是 没有 额外 开销 的 ， 在 多 
核 CPU 上 使 用 多 线程 也 基本 上 没有 额外 开销 ， 在 多 GPU 上 的 限制 主要 在 PCIe 的 市 宽 ， 
在 多 机 之 间 的 限制 则 主要 在 网 络 开 销 。TensorFlow 中 的 模型 并 行 如 图 1-14 Aran. 


| = 





1-14 TensorFlow 中 的 模型 并 行 


(3) 流水 线 并 行 : 和 异步 的 数据 并 行 很 像 ， 只 不 过 是 在 同一 个 硬件 设备 上 实现 并 行 。 
大 致 思路 是 将 计算 做 成 流水 线 , 在 一 个 设备 上 连续 地 并 行 执行 , 提高 设备 的 利用 率 ， 如 图 
1-15 所 示 。 





1-15 ”TensorFlow 中 的 流水 线 并 行 


ww ai bbt.com PO0O0O0O0DOO 





1  TensorFlow 基础 T 


KÆ, TensorFlow 会 支持 把 任意 子 图 独立 出 来 ， 封 装 成 一 个 国 数 ， 并 让 不 同 的 前 端 
语言 (比如 Python 或 者 CH) 来 调用 。 这 样 将 设计 好 的 子 图 发 布 在 开源 社区 中 ， 大 家 的 
工作 就 可 以 方便 地 被 分 享 了 。TensorFlow 也 计划 推出 优化 计算 图 执行 的 just-in-time 编译 
as 〈 目前 在 TensorFlow 1.0.0-rc0 中 已 有 试验 性 的 XLA 组 件 ， 可 提供 JIT 及 AOT 编译 优 
化 )， 期 望 可 以 自动 推断 出 tensor 的 类 型 、 大 小 ， 并 自动 生成 一 条 高 度 优化 过 的 流水 线 。 
同时 ，TensorFlow 还 会 持续 优化 为 运算 节点 分 配 硬 件 设 备 的 策略 ， 以 及 节点 执行 排序 的 
策略 。 
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TensorFlow Fil (aR RE 
学 习 框 架 的 对 比 


2.1 ”主流 深度 学 习 框 架 对 比 


深度 学 习 研 究 的 热潮 持续 高 涨 ， 各 种 开 产 深度 学 习 框 架 也 层出不穷 ， 其 中 包括 
TensorFlow „Caffe? Keras’, CNTK ,Torch7'' MXNet” Leaf”? ,Theano™ .DeepLearning4 *、 
Lasagne 、Neon”"， 等 等 。 然 而 TensorFlow 却 杀 出 重围 ， 在 关注 度 和 用 户 数 上 都 占据 绝 
对 优势 ， 大 有 一 统 江湖 之 势 。 表 2-1 所 示 为 各 个 开源 框架 在 GitHub 上 的 数据 统计 ( 数据 
统计 于 2017 年 1 月 3 日 ), 可 以 看 到 TensorFlow 在 star 数量 、fork 数量 、contributor 数量 
这 三 个 数据 上 都 完胜 其 他 对 手 。 究 其 原因 ， 主 要 是 Google 在 业界 的 号 召 力 确实 强大 ,之 
前 也 有 许多 成 功 的 开源 项 目 ， 以 及 Google 强大 的 人 工 智 能 研发 水 平 ， 都 让 大 家 对 Google 
的 深度 学 习 框 架 充满 信心 ， 以 至 于 TensorFlow 在 2015 年 11 月 刚 开源 的 第 一 个 月 就 积 系 
了 10000+ 的 star。 其 次 ，TensorFlow 确实 在 很 多 方面 拥有 优异 的 表现 ， 比 如 设计 神经 网 
络 结构 的 代码 的 简洁 度 , 分 布 式 深度 学 习 算 法 的 执行 效率 , 还 有 部 署 的 便利 性 ,都 是 其 得 
以 胜出 的 亮点 。 如 果 一 直 关 注 着 TensorFlow 的 开发 进度 ， 就 会 发 现 基本 上 每 星期 
TensorFlow 都 会 有 1 万 行 以 上 的 代码 更 新 ， 多 则 数 万 行 。 产 品 本 身 优异 的 质量 、 快 速 的 
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迭代 更 新 、 活 跃 的 社区 和 积极 的 反馈 ， 形 成 了 民 性 循环 ， 可 以 想见 TensorFlow 未 来 将 继 
续 在 各 种 深度 学 习 框 架 中 独占 鳌头 。 


表 2-1 各 个 开源 框架 在 GitHub 上 的 数据 统计 


Deeplearning4J 1927 101 


观察 表 2-1 RATA RE, Google, Microsoft, Facebook 等 巨头 都 参与 了 这 场 深度 学 习 
框架 大 战 ， 此 外 ， 还 有 毕业 于 伯克利 大 学 的 贾 扬 清 主导 开发 的 Caffe， 蒙 特 利 尔 大 学 Lisa 
Lab 团队 开发 的 Theano， 以 及 其 他 个 人 或 商业 组 织 贡 献 的 框架 。 另 外 ， 可 以 看 到 各 大 主 
Uitte AREAS aD sc Python, HAI Python 在 科学 计算 和 数据 挖掘 领域 可 以 说 是 独 领 风骚 。 
虽然 有 来 目 R、Julia 等 语言 的 竞争 压力 ， 但 是 Python 的 各 种 库 实 在 是 太 完 善 了 ，Web FF 
发 、 数 据 可 视 化 、 数 据 预 处 理 、 数 据 库 连接 、 疏 虫 等 无 所 不 能 ， 有 一 个 完美 的 生态 环境 。 
仅 在 数据 挖 据 工 具 链 上 ，Python 就 有 NumPy、SciPy、Pandas Scikit-learn, XGBoost 等 
组 件 ， 做 数据 采集 和 预 处 理 都 非常 方便 ， 并 且 之 后 的 模型 训练 阶段 可 以 和 TensorFlow 等 
基于 Python HREF JIER ERHI o 


表 2-2 和 图 2-1 所 示 为 对 主流 的 深度 学 习 框 架 TensorFlow, Caffe, CNTK. Theano. 
Torch 在 各 个 维度 的 评分 ， 本 书 2.2 节 会 对 各 个 深度 学 习 框 架 进行 比较 详细 的 介绍 。 


表 2-2 ”主流 深度 学 习 框架 在 各 个 维度 的 评分 
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图 2-1 主流 深度 学 习 框架 对 比 图 


2.2 ”各 深度 学 习 框 染 简 介 


EAT, 我 们 先 来 看 看 目前 各 流行 框架 的 异同 ， 以 及 各 目的 特点 和 优势 。 


2.2.1 TensorFlow 


续 表 


66 
58 


TensorFlow 是 相对 高 阶 的 机 器 学 习 库 ， 用 户 可 以 方便 地 用 它 设计 神经 网 络 结构 ， 而 
不 必 为 了 追求 高 效率 的 实现 亲自 写 C++ 或 CUDA 代码 。 它 和 Theano 一 样 都 支持 目 动 求 
&, 用 户 不 需要 再 通过 反 向 传播 求解 梯度 。 其 核心 代码 和 Caffe 一 样 是 用 C++ 编写 的 ,使 
用 C++ 简化 了 线 上 部 署 的 复杂 度 ， 并 让 手机 这 种 内 存 和 CPU 资源 都 紧张 的 设备 可 以 运行 
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复杂 模型 (Python 则 会 比较 消耗 资源 ， 并 且 执 行 效 率 不 高 )。 除 了 核心 代码 的 C++ 接口 ， 
TensorFlow 还 有 官方 的 Python Go 和 Java 接口 ， 是 通过 SWIG ( Simplified Wrapper and 
Interface Generator ) 实现 的 ， 这 样 用 户 就 可 以 在 一 个 硬件 配置 较 好 的 机 器 中 用 Python 进 
行 实 验 ， 并 在 资源 比较 紧张 的 舱 入 式 环境 或 需要 低 延 迟 的 环境 中 用 C++ 部 署 模型 。SWIG 
支持 给 C/C++ 代码 提供 各 种 语言 的 接口 , 因此 其 他 脚本 语言 的 接口 未 来 也 可 以 通过 SWIG 
方便 地 添加 。 不 过 使 用 Python 时 有 一 个 影响 效率 的 问题 是 , 每 一 个 mini-batch 要 从 Python 
中 feed 到 网 络 中 ， 这 个 过 程 在 mini-batch 的 数据 量 很 小 或 者 运算 时 间 很 短 时 ， 可 能 会 带 

影响 比较 大 的 延迟 。 现 在 TensorFlow 还 有 非 官方 的 Julia、Node.js、R 的 接口 支持 ,地 
址 如 下 。 


Julia: github.com/malmaud/TensorFlow.jl 
Node.js: github.com/node-tensorflow/node-tensorflow 
R: github.com/rstudio/tensorflow 


TensorFlow 也 有 内 置 的 TF.Learn 和 TF.Slim 等 上 层 组 件 可 以 帮助 快速 地 设计 新 网 络 ， 
FF AFR Scikit-learn estimator 接口 ,可 以 方便 地 实现 evaluate grid search ,cross validation 
等 功能 。 同 时 TensorFlow 不 只 局 限于 神经 网 络 , 其 数据 流 式 图 支持 非常 自由 的 算法 表达 ， 
当然 也 可 以 轻松 实现 深度 学 习 以 外 的 机 器 学 习 算 法 。 事实 上 , 只 要 可 以 将 计算 表示 成 计算 
图 的 形式 ， 融 可 以 使 用 TensorFlow。 用 户 可 以 写 内 层 循环 代码 控制 计算 图 分 支 的 计算 ， 
TensorFlow 会 目 动 将 相关 的 分 支 转 为 子 图 并 执行 迭代 运算 。TensorFlow 也 可 以 将 计算 图 
中 的 各 个 节点 分 配 到 不 同 的 设备 执行 ， 充 分 利用 硬件 资源 。 定 义 新 的 节点 只 需要 写 一 个 
Python 蚁 数 ， 如 果 没 有 对 应 的 底层 运算 核 ， 那 么 可 能 需要 写 C++ 或 者 CUDA 代码 实现 运 
算 操作 。 


在 数据 并 行 模 式 上 ，TensorFlow 和 Parameter Server 很 像 但 TensorFlow 有 独立 的 
Variable node ,不 像 其 他 框 染 有 一 个 全 局 统一 的 参数 服务 器 ， 因 此 参数 同步 更 自由 。 
TensorFlow 和 Spark 的 核心 都 是 一 个 数据 计算 的 流 式 图 ，Spark 面向 的 是 大 规模 的 数据 ， 
XIF SQL 等 操作 ， 而 TensorFlow 主要 面向 内 存 足 以 装载 模型 参数 的 环境 ， 这样 可 以 最 大 
化 计算 效率 。 


TensorFlow 的 另外 一 个 重要 特点 是 它 灵 活 的 移植 性 ， 可 以 将 同一 份 代码 几乎 不 经 过 
修改 就 轻松 地 部 署 到 有 任意 数量 CPU 或 GPU 的 PC、 服 务 器 或 者 移动 设备 上 。 相 比 于 
Theano, TensorFlow 还 有 一 个 优势 就 是 它 极 快 的 编译 速度 , 在 定义 新 网 络 结构 时 ，Theano 
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通常 需要 长 时 间 的 编译 ， 因 此 尝试 新 模型 需要 比较 大 的 代价 ， 而 TensorFlow 完全 没有 这 
个 问题 。TensorFlow 还 有 功能 强大 的 可 视 化 组 件 TensorBoard， 能 可 视 化 网 络 结构 和 训练 
过 程 ， 对 于 观察 复杂 的 网 络 结构 和 监控 长 时 间 、 大 规模 的 训练 很 有 帮助 。TensorFlow $t 
对 生产 环境 高 度 优化 ， 它 产品 级 的 高 质量 代码 和 设计 都 可 以 保证 在 生产 环境 中 稳定 运行 ， 
同时 一 旦 TensorFlow 广泛 地 被 工业 界 使 用 ， 将 产生 民 性 循环 ， 成 为 深度 学 习 领 域 的 事实 
标准 。 

除了 支持 常见 的 网 络 结构 [ 卷 积 神经 网 络 (Convolutional Neural Network, CNN 小 
循环 神经 网 络 (Recurent Neural Network, RNN ) ] 外 ，TensorFlow 还 支持 深度 强化 学 习 
乃至 其 他 计算 密集 的 科学 计算 ( 如 偏 微分 方程 求解 等 )。TensorFlow 此 前 不 支持 symbolic 
loop ， 需 要 使 用 Python 循环 而 无 法 进行 图 编译 优化 ,但 最 近 新 加 入 的 KLA 已 经 开始 支持 
JIT 和 AOT, 男 外 它 使 用 bucketing trick 也 可 以 比较 高 效 地 实现 循环 神经 网 络 。TensorFlow 
的 一 个 薄弱 地 方 可 能 在 于 计算 图 必须 构建 为 静态 图 , 这 让 很 多 计算 变 得 难以 实现 , 尤其 是 
序列 预测 中 经 常 使 用 的 beam search. 


TensorFlow 的 用 户 能 够 将 训练 好 的 模型 方便 地 部 署 到 多 种 硬件 、 操 作 系 统 平 台 上 ， 
支持 Intel 和 AMD 的 CPU, 通过 CUDA 324% NVIDIA 的 GPU ( 最近 也 开始 通过 OpenCL 
支持 AMD 的 GPU, 但 没有 CUDA 成 熟 )， 支持 Linux 和 Mac， 最 近 在 0.12 版 本 中 也 开 
始 尝试 支持 Windows。 在 工业 生产 环境 中 ， 硬 件 设备 有 些 是 最 新 款 的 ， 有 些 是 用 了 几 年 
的 老 机 型 ， 来 源 可 能 比较 复杂 ，TensorFlow 的 异 构 性 让 它 能 够 全 面 地 支持 各 种 硬件 和 操 
(FAR. IN, AE CPU 上 的 矩阵 运算 库 使 用 了 Eigen 而 不 是 BLAS E, 能 够 基于 ARM 
架构 编译 和 优化 ， 因 此 在 移动 设备 (Android 和 iOS ) 上 表现 得 很 好 。 


TensorFlow 在 最 开始 发 布 时 只 支持 单机 , 而 且 只 支持 CUDA 6.5 和 cuDNN v2, 并 且 
没有 官方 和 其 他 深度 学 习 框 架 的 对 比 结果 。 在 2015 年 年 底 ， 许 多 其 他 框架 做 了 各 种 性 能 
对 比 评测 ， 每 次 TensorFlow 都 会 作为 较 差 的 对 照 组 出 现 。 那 个 时 期 的 TensorFlow 真 的 不 
快 ， 性 能 上 仅 和 普遍 认为 很 慢 的 Thean 比肩 ， 在 各 个 框架 中 可 以 算是 垫底 。 但 是 凭 倍 
Google 强大 的 开发 实力 , 很 快 支持 了 新 版 的 cuDNN ( 目前 支持 cuDNN v5.1), 在 单 GPU 
上 的 性 能 追 上 了 其 他 框架 。 表 2-3 所 示 为 https://github.com/soumith/convnet-benchmarks 给 
出 的 各 个 框架 在 AlexNet 上 单 GPU 的 性 能 评测 。 
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R 2-3 各 深度 学 习 框 架 在 AlexNet 上 的 性 能 对 比 


Library (È) 前 馈 时 间 (ms) | 反馈 时 间 (ms) 
CuDNN[R4]-fp16 (Torch) | cudnn.SpatialConvolution 71 46 
i 
fbfft (Torch) fonn.SpatialConvolution 
oe 


— 
Lo 
Nn 


Caffe (native) ConvolutionLayer 
Torch-7 (native) SpatialConvolutionMM 


3] 
40 
42 
70 
121 
132 
388 


CL-nn (Torch) SpatialConvolutionMM | 3g8 | 5⁄4 


Caffe-CLGreenTea ConvolutionLayer 1442 210 1232 


目前 在 单 GPU 的 条 件 下 , 绝 大 多 数 深 度 学 习 框 架 都 依赖 于 cuDNN, 因此 只 要 硬件 计 
算 能 力 或 者 内 存 分 配 差异 不 大 , 最 终 训练 速度 不 会 相差 太 大 。 但 是 对 于 大 规模 深度 学 习 来 
说 ， 巨 大 的 数据 量 使 得 单机 很 难 在 有 限 的 时 间 完 成 训练 。 这 时 需要 分 布 式 计算 使 GPU 集 
群 刀 至 TPU 集群 并 行 计 算 , 共同 训练 出 一 个 模型 ,所 以 框架 的 分 布 式 性 能 是 至 关 重 要 的 。 
TensorFlow 在 2016 年 4 月 开源 了 分 布 式 版 本 ,使 用 16 块 GPU 可 达 单 GPU 的 15 倍 提速 ， 
在 50 块 GPU 时 可 达到 40 倍 提速 ， 分 布 式 的 效率 很 高 。 目 前 原生 支持 的 分 布 式 深度 学 习 
框架 不 多 ,只 有 TensorFlow、CNTK、DeepLearming4J、MXNet 等 。 不 过 目前 TensorFlow 
的 设计 对 不 同 设备 间 的 通信 优化 得 不 是 很 好 ， 其 单机 的 reduction 只 能 用 CPU 处 理 , 分 布 
式 的 通信 使 用 基于 socket 的 RPC， 而 不 是 速度 更 快 的 RDMA， 所 以 其 分 布 式 性 能 可 能 还 
没有 达到 最 优 。 . 3 

Google Æ 2016 年 2 月 开源 了 TensorFlow Serving”， 这 个 组 件 可 以 将 TensorFlow 训 
练 好 的 模型 导出 ,并 部 署 成 可 以 对 外 提供 预测 服务 的 RESTful 接口 , 如 图 2-2 所 示 。 有 了 
这 个 组 件 ，TensorFlow 就 可 以 实现 应 用 机 需 学 习 的 全 流程 : 从 训练 模型 、 调 试 参数 ， 到 
打包 模型 ,最 后 部 署 服务 ,名副其实 是 一 个 从 研究 到 生产 整 条 流水 线 都 齐备 的 框架 。 这 里 
引用 TensorFlow 内 部 开发 人 员 的 描述 : “TensorFlow Serving 是 一 个 为 生产 环境 而 设计 的 
高 性 能 的 机 器 学 习 服务 系统 。 它 可 以 同时 运行 多 个 大 规模 深度 学 习 模型 , 支持 模型 生命 拓 
期 管理 、 算 法 实验 ,并 可 以 高 效 地 利用 GPU 资源 ， 让 TensorFlow 训练 好 的 模型 更 快捷 方 
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便 地 投入 到 实际 生产 环境 ”。 除了 TensorFlow LAAR EZR BRD EA 
E, m Google 作为 广泛 在 实际 产品 中 应 用 深度 学 习 的 巨头 可 能 也 意识 到 了 这 个 机 会 ， 因 
此 开发 了 这 个 部 署 服务 的 平台 。TensorFlow Serving 可 以 说 是 一 副 王牌 ,将 会 帮 TensorFlow 
成 为 行业 标准 做 出 巨大 贡献。 





sl 





2-2 TensorFlow Serving 架构 


TensorBoard 是 TensorFlow 的 一 组 Web 应 用 ， 用 来 监控 TensorFlow 运行 过 程 ， 或 可 
视 化 Computation Graph. TensorBoard 目前 支持 5 种 可 视 化 :标量 ( scalars )、 图 片 ( images )、 
音频 ( audio ) 直方 图 (histograms ) 和 寺 算 图 ( Computation Graph )。TensorBoard 的 Events 
Dashboard 可 以 用 来 持续 地 监控 运行 时 的 关键 指标 ， 比 如 loss, HIRR (learing rate ) 
或 是 验证 集 上 的 准确 率 (accuracy ); Image Dashboard 则 可 以 展示 训练 过 程 中 用 户 设 定 保 
存 的 图 片 , 比如 某 个 训练 中 间 结 果 用 Matplotlib 等 绘制 ( plot ) 出 来 的 图 片 ; Graph Explorer 
则 可 以 完全 展示 一 个 TensorFlow 的 计算 图 ， 并 且 支 持 缩 放 拖 忠和 查看 证 点 属性 。 
TensorBoard 的 可 视 化 效果 如 图 2-3 和 图 2-4 所 示 。 
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input new regex © ， xentropy (1) 
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2-3 TensorBoard 的 loss 标量 的 可 视 化 


< Ponent 
= ni an 
| softmax_tinear | “HOR gaoet. 
5 “UL save 





Reshape[1-3] 








2-4 TensorBoard 的 模型 结构 可 视 化 


TensorFlow 拥有 产品 级 的 高 质量 代码 ， 有 Google 强大 的 开发 、 维 护 能 力 的 加 持 ， 整 
体 架 构 设 计 也 非常 优秀 。 相 比 于 同样 基于 Python 的 老牌 对 手 Theano, TensorFlow 更 成 熟 、 
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更 完善 ， 同 时 Theano 的 很 多 主要 开发 者 都 去 了 Google 开发 TensorFlow ( 例如 书籍 Deep 
Learning 的 作者 Jan Goodfellow, 他 后 来 去 了 OpenAI )。Google 作为 巨头 公司 有 比 高 校 或 
者 个 人 开发 者 多 得 多 的 资源 投入 到 TensorFlow 的 研发 ， 可 以 预见 ，TensorFlow 未 来 的 发 
展 将 会 是 飞速 的 ， 可 能 会 把 大 学 或 者 个 人 维护 的 深度 学 习 框 架 远 远 甩 在 喘 后 。 


2.2.2 Caffe 
官方 网 址 : caffe.berkeleyvision.org/ 
GitHub: github.com/BVLC/caffe 


Caffe 全 称 为 Convolutional Architecture for Fast Feature Embedding， 是 一 个 被 广泛 
使 用 的 开源 深度 学 习 框 架 ( 在 TensorFlow 出 现 之 前 一 直 是 深度 学 习 领 域 GitHub star 最 多 
的 项 目 )， 目 前 由 伯克利 视觉 学 中 心 (Berkeley Vision and Learning Center, BVLC ) 进 
行 维护 。Caffe 的 创始 人 是 加 州 大 学 伯克利 的 Ph.D. 贾 扬 清 ， 他 同时 也 是 TensorFlow 的 作 
者 之 一 ， 曾 工作 于 MSRA, NEC 和 Google Brain， 目 前 就 职 于 Facebook FAIR 实验 宇 。 
Caffe 的 主要 优势 包括 如 下 几 点 。 


(1) 容易 上 手 ， 网 络 结构 都 是 以 配置 文件 形式 定义 ， 不 需要 用 代码 设计 网 络 。 
(2) 训练 速度 快 ， 能 够 训练 state-of-the-art 的 模型 与 大 规模 的 数据 。 
(3) 组 件 模块 化 ， 可 以 方便 地 拓展 到 新 的 模型 和 学 习 任 务 上 。 


Caffe 的 核心 概念 是 Layer， 每 一 个 神经 网 络 的 模块 都 是 一 个 Layer。Layer 接收 输入 
数据 ， 同 时 经 过 内 部 计算 产生 输出 数据 。 设 计 网 络 结构 时 ， 只 需要 把 各 个 Layer 拼接 在 一 
起 构成 完整 的 网 络 〈 通过 写 protobuf 配置 文件 定义 )。 比 如 卷 积 的 Layer， 它 的 输入 就 是 
图 片 的 全 部 像素 点 ， 内 部 进行 的 操作 是 各 种 像素 值 与 Layer 参数 的 convolution 操作 ， 最 


后 输出 的 是 所 有 卷 积 核 filter 的 结果 。 每 一 个 Layer 需 要 定义 两 种 运算 ,一 种 是 正 同 ( forward ) 


的 运算 , 即 从 输入 数据 计算 输出 结果 , 也 就 是 模型 的 预测 过 程 ; 另 一 种 是 反 网 (backward ) 

的 运算 ， 从 输出 端的 gradient 求解 相对 于 输入 的 gradient， 即 反 向 传播 算法 ， 这 部 分 也 下 
是 模型 的 训练 过 程 。 实 现 新 Layer 时 ， 需 要 将 正 向 和 反 向 两 种 计算 过 程 的 函数 都 实现 ,这 
部 分 计算 需要 用 户 自己 写 C++ 或 者 CUDA ( 当 需 要 运行 在 GPU 时 ) 代码 ， 对 普通 用 户 来 
说 还 是 非常 难 上 手 的 。 正 如 它 的 名 字 Convolutional Architecture for Fast Feature 
Embedding 所 描述 的 ，Caffe 最 开始 设计 时 的 目标 只 针对 于 图 像 ， 没 有 考虑 文本 、 语 首 或 
者 时 间 序 列 的 数据 , 因此 Caffe 对 卷 积 神经 网 络 的 支持 非常 好 ,但 对 时 间 序 列 RNN、LSTM 
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等 支持 得 不 是 特别 充分 。 同 时 ， 基 于 Layer 的 模式 也 对 RNN 不 是 非常 友好 ， 定 义 RNN 
”结构 时 比较 麻烦 。 在 模型 结构 非常 复杂 时 , 可 能 需要 写 非常 见长 的 配置 文件 才能 设计 好 网 
络 ， 而 且 阅 读 时 也 比较 费力 。 


Caffe 的 一 大 优势 是 拥有 大 量 的 训练 好 的 经 典 模型 (AlexNet、VGG Inception) 乃至 
其 他 state-of-the-art (ResNet 等 ) 的 模型 ， 收 藏 在 它 的 Model Zoo ( github.com/BVLC/ 
“caffe/wiki/Model-Zo0o0 )。 因 为 知名 度 较 高 ，Caffe 被 广泛 地 应 用 于 前 沿 的 工业 界 和 学 术 界 ， 
许多 提供 源码 的 深度 学 习 的 论文 都 是 使 用 Caffe 来 实现 其 模型 的 ,在 计算 机 视觉 领域 Caffe 
应 用 尤其 多 ， 可 以 用 来 做 人 脸 识 别 、 图 片 分 类 、 位 置 检测 、 目 标 追 踪 等 。 虽 然 Caffe 主要 
是 面向 学 术 圈 和 研究 者 的 , 但 它 的 程序 运行 非常 稳定 ,代码 质量 比较 高 , 所 以 也 很 适合 六 
稳定 性 要 求 严 格 的 生产 环境 ， 可 以 算是 第 一 个 主流 的 工业 级 深度 学 习 框 架 。 因 为 Caffe 的 
底层 是 基于 C++ 的 ， 因 此 可 以 在 各 种 硬件 环境 编译 并 具有 展 好 的 移植 性 ， 支 持 Linux, 
Mac 和 Windows 系统 ， 也 可 以 编译 部 署 到 移动 设备 系统 如 Android 和 iOS 上 。 和 其 他 主 
流 深 度 学 习 库 类 似 ，Caffe 也 提供 了 Python 语言 接口 pycaffe， 在 接触 新 任务 ， 设 计 新 网 
络 时 可 以 使 用 其 Python 接口 简化 操作 。 不 过 ， 通 常用 户 还 是 使 用 Protobuf 配置 文件 定义 
神经 网 络 结构 ， 再 使 用 command line 进行 训练 或 者 预测 。Caffe 的 配置 文件 是 一 个 ISON 
类 型 的 .prototxt 文件 , 其 中 使 用 许多 顺序 连接 的 Layer 来 描述 神经 网 络 结构 。Caffe 的 二 进 
制 可 执行 程序 会 提取 这 些 .prototxt 文件 并 按 其 定义 来 训练 神经 网 络 。 理 论 上 ，Caffe 的 用 
户 可 以 完全 不 写 代 码 ， 只 是 定义 网 络 结构 就 可 以 完成 模型 训练 了 。Catffe 完成 训练 之 后 ， 
用 户 可 以 把 模型 文件 打包 制作 成 简单 易 用 的 接口 ,比如 可 以 封装 成 Python 或 MATLAB 的 
API。 不 过 在 .prototxt 文件 内 部 设计 网 络 节 构 可 能 会 比较 受 限 ， 没 有 像 TensorFlow 或 者 
Keras 那样 在 Python 中 设计 网 络 结构 方便 、 自 由 。 更 重要 的 是 ，Caffe 的 配置 文件 不 能 用 
编程 的 方式 调整 超 参数 ， 也 没有 提供 像 Scikit-leam 那样 好 用 的 estimator 可 以 方便 地 进行 
交叉 验证 、 超 参数 的 Grid Search 等 操作 。Caffe 在 GPU 上 训练 的 性 能 很 好 ( 使 用 单 块 GTX 
1080 训练 AlexNet 时 一 天 可 以 训练 上 百 万 张 图 片 ), 但 是 目前 仅 支持 单机 多 GPU 的 训练 ， 
没有 原生 支持 分 布 式 的 训练 。 庆 入 的 是 ， 现 在 有 很 多 第 三 方 的 支持 ， 比 如 雅虎 开源 的 
CaffeOnSpark， 可 以 借助 Spark 的 分 布 式 框 染 实现 Caffe 的 大 规模 分 布 式 训 练 。 


2.2.3 Theano 
官方 网 址 : http://www.deeplearning.net/software/theano/ 


GitHub: github.com/Theano/Theano 
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Theano 诞生 于 2008 年 ， 由 蒙特 利 尔 大 学 Lisa Lab 团队 开发 并 维护 ， 是 一 个 高 性 能 
的 符号 计算 及 深度 学 习 库 。 因 其 出 现时 间 早 , 可 以 算是 这 类 库 的 始祖 之 一 , 也 一 度 被 认为 
是 深度 学 习 研 究 和 应 用 的 重要 标准 之 一 。Theano 的 核心 是 一 个 数学 表达 式 的 编译 器 ， 专 
门 为 处 理 大 规模 神经 网 络 训 练 的 计算 而 设计 。 它 可 以 将 用 户 定义 的 各 种 计算 编译 为 高 效 的 
底层 代码 ， 并 链接 各 种 可 以 加 速 的 库 ， 比 如 BLAS, CUDA 等 。Theano 人 允许 用 户 定 义 、 
优化 和 评估 包含 多 维 数组 的 数学 表达 式 , 它 支 持 将 计算 装载 到 GPU (Theano 在 GPU 上 性 
能 不 错 ， 但 是 CPU 上 较 差 )。 与 Scikit-leam 一 样 ，Theano 也 很 好 地 整合 了 NumPy， 对 
GPU 的 透明 让 Theano 可 以 较为 方便 地 进行 神经 网 络 设计 ， 而 不 必 直 接 写 CUDA 代码 。 
Theano 的 主要 优势 如 下 。 


(1) 集成 NumPy， 可 以 直接 使 用 NumPy 的 ndarray，API 接口 学 习 成 本 低 。 
(2) 计算 稳定 性 好 ， 比 如 可 以 精准 地 计算 输出 值 很 小 的 函数 ( 像 log(1+x) )。 
(3 ) 动态 地 生成 C 或 者 CUDA 代码 ， 用 以 编译 成 高 效 的 机 器 代码 。 


因为 Theano 非常 流行 ， 有 许多 人 为 它 编写 了 高 质量 的 文档 和 教程 ， 用 户 可 以 方便 地 
查找 Theano 的 各 种 FAQ， 比 如 如 何 保存 模型 、 如 何 运行 模型 等 。 不 过 Theano 更 多 地 被 
当 作 一 个 研究 工具 , 而 不 是 当 作 产品 来 使 用 。 虽然 Theano 支持 Linux, Mac 和 Windows, 
但 是 没有 底层 C++ 的 接口 ， 因 此 模型 的 部 署 非常 不 方便 ， 依 赖 于 各 种 Python 库 ， 并 且 不 
支持 各 种 移动 设备 ， 所 以 几乎 没有 在 工业 生产 环境 的 应 用 。Theano 在 调试 时 输出 的 错误 
信息 非常 难以 看 懂 ， 因 此 DEBUG 时 非常 痛苦 。 同 时 ，Theano 在 生产 环境 使 用 训练 好 的 
模型 进行 预测 时 性 能 比较 差 ， 因 为 预测 通常 使 用 服务 器 CPU ( 生产 环境 服务 器 一 般 没 有 
GPU， 而 且 GPU 预测 单条 样本 延迟 高 反而 不 如 CPU )， 但 是 Theano 在 CPU 上 的 执行 性 
能 比较 差 。 


Theano 在 单 GPU 上 执行 效率 不 错 ,性 能 和 其 他 框架 类 似 。 但 是 运算 时 需要 将 用 户 的 
Python 代码 转换 成 CUDA 代码 ， 再 编译 为 二 进 制 可 执行 文件 ， 编 译 复杂 模型 的 时 间 非 党 
久 。 此 外 ，Theano 在 导入 时 也 比较 慢 ， 而 且 一 旦 设 定 了 选择 某 块 GPU ， 就 无 法 切换 到 其 
他 设备 。 目 前 ，Theano 在 CUDA 和 cuDNN 上 不 支持 多 GPU， 只 在 OpenCL 和 Theano 
自己 的 gpuarray 库 上 支持 多 GPU 训练 ， 速 度 暂时 还 比 不 上 CUDA 的 版 本 ， 并 且 Theano 

. 目前 还 没有 分 布 式 的 实现 。 不 过 ，Theano 在 训练 简单 网 络 〈 比 如 很 浅 的 MLP ) 时 性 能 
能 比 TensorFlow 好 ， 因 为 全 部 代码 都 是 运行 时 编译 ， 不 需要 像 TensorFlow 那样 每 次 feed 
mini-batch 数据 时 都 得 通过 低 效 的 Python 循环 来 实现 。 
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Theano 是 一 个 完全 基于 Python ( C++/CUDA 代码 也 是 打包 为 Python FIFE ) 的 符号 
计算 库 。 用 户 定 义 的 各 种 运算 ，Theano 可 以 自动 求 导 ， 省 去 了 完全 手工 写 神 经 网 络 反 向 
传播 算法 的 太 烦 ， 也 不 需要 像 Caffe 一 样 为 Layer 5 C++ 或 CUDA 代码 。Theano 对 卷 积 
神经 网 络 的 支持 很 好 ， 同 时 它 的 符号 计算 API 支持 循环 控制 (内 部 名 scan), ik RNN 的 
实现 非常 简单 并 且 高 性 能 , 其 全 面 的 功能 也 让 Theano 可 以 支持 大 部 分 state-of-the-art 的 网 
络 。Theano 派生 出 了 大 量 基 于 它 的 深度 学 习 库 ， 包 括 一 系列 的 上 层 封装 ， 其 中 有 大 名 克 
FHAY Keras, Keras 对 神经 网 络 抽 象 得 非常 合适 , 以 至 于 可 以 随意 切换 执行 计算 的 后 端 ( 目 
前 同时 支持 Theano 和 TensorFlow ).Keras 比较 适合 在 探索 阶段 快速 地 尝试 各 种 网 络 结构 ， 
组 件 都 是 可 插 拔 的 模块 ， 只 需要 将 一 个 个 组 件 〈 比 如 卷 积 层 、 激 活 函 数 等 ) 连接 起 来 ,但 
是 设计 新 模块 或 者 新 的 Layer MAA ES ob Keras 外 ,还 有 学 术 界 非常 喜爱 的 Lasagne, 
同样 也 是 Theano 的 上 层 封装 ， 它 对 神经 内 网 络 的 每 一 层 的 定义 都 非常 严 说。 另外， 还 有 
scikit-neuralnetwork, nolearn 这 两 个 基于 Lasagne 的 上 层 封 装 ， 它们 将 神经 网 络 抽象 为 兼 
容 Scikit-learn 接口 的 classifier 和 regressor， 这 样 就 可 以 方便 地 使 用 Scikit-learn 中 经 典 的 
fit, transform, score 等 操作 。 除 此 之 外 , Theano 的 上 层 封装 库 还 有 blocks 、deepy、pylearn2 
和 Scikit-theano， 可 谓 是 一 个 庞大 的 家 族 。 如 果 没 有 Theano ， 可 能 根本 不 会 出 现 这 么 多 好 
用 的 Python 次 度 学 习 库 。 同 样 ,如 果 没 有 了 Python 科学 计算 的 基石 NumPy, 就 不 会 有 SciPy、 
Scikit-learn 和 Scikit-image, 可 以 说 Theano 就 是 深度 学 习 界 的 NumPy, 是 其 他 各 类 Python 
REF YJEVE. RA Thean 非常 重要 , 但 是 直接 使 用 Theano 设计 大 型 的 神经 网 络 还 
是 太 烦 琐 了 ,用 Theano 实现 Google Inception 就 像 用 NumPy 实现 一 个 支持 向 量 机 ( SVM )。 
且 不 说 很 多 用 户 做 不 到 用 Theano 实现 一 个 Inception 网 络 , 即使 能 做 到 但 是 否 有 必要 花 这 
个 时 间 呢 ?毕竟 不 是 所 有 人 都 是 基础 科学 工作 者 , 大 部 分 使 用 场景 还 是 在 工业 应 用 中 。 所 
以 简单 易 用 是 一 个 很 重要 的 特性 , 这 也 就 是 其 他 上 层 封装 库 的 价值 所 在 : 不 需要 总 是 从 最 
基础 的 tensor 粒度 开始 设计 网 络 ， 而 是 从 更 上 层 的 Layer 粒度 设计 网 络 。 


2.2.4 Torch 
官方 网 址 : http://torch.ch/ 
GitHub: github.com/torch/torch7 


Torch 给 自己 的 定位 是 LuaJIT 上 的 一 个 高 效 的 科学 计算 库 ,支持 大 量 的 机 器 学 习 算法 ， 
同时 以 GPU 上 的 计算 优先 。Torch 的 历史 非常 悠久 ， 但 真正 得 到 发 扬 光 大 是 在 Facebook 
开源 了 其 深度 学 习 的 组 件 之 后 ， 此 后 包括 Google, Twitter, NYU, IDIAP, Purdue 等 组 织 
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都 大 量 使 用 Torch. Torch 的 目标 是 让 设计 科学 计算 算法 变 得 便捷 ， 它 包含 了 大 量 的 机 器 
学 习 、 计 算 机 视觉 、 信 号 处 理 、 并 行 运算 、 图 像 、 视 频 、 音 频 、 网 络 处 理 的 库 ， 同 时 和 
Caffe XW, Torch 拥有 大 量 的 训练 好 的 深度 学 习 模型 。 它 可 以 支持 设计 非 弟 复杂 的 神经 
网 络 的 拓扑 图 结构 ， 再 并 行 化 到 CPU 和 GPU E, Æ Torch 上 设计 新 的 Layer 是 相对 简单 
的 。 它 和 TensorFlow 一 样 使 用 了 底层 C++ 加 上 层 脚 本 语言 调用 的 方式 ， 只 不 过 Torch 使 
用 的 是 Lua. Lua 的 性 能 是 非常 优秀 的 ( 该 语言 经 常 被 用 来 开发 游戏 )， 常 见 的 代码 可 以 
通过 透明 的 JIT 优化 达到 C 的 性 能 的 80%; 在 便利 性 上 ，Lua 的 语法 也 非常 简单 易 读 , 拥 
有 漂亮 和 统一 的 结构 ， 易 于 掌握 ， 比 写 C/C++ 简洁 很 多 ; 同时 ，Lua 拥有 一 个 非常 直接 的 
调用 C 程序 的 接口 ， 可 以 简便 地 使 用 大 量 基于 C 的 库 ， 因 为 底层 核心 是 C 写 的 ， 因 此 也 
可 以 方便 地 移植 到 各 种 环境 ,Lua 支持 Linux、Mac, 还 支持 各 种 舱 入 式 系 统 ( iOS 、Android、 
FPGA 等 ), 只 不 过 运行 时 还 是 必须 有 LuaJIT 的 环境 ,所 以 工业 生产 环境 的 使 用 相对 较 少 ， 
没有 Caffe 和 TensorFlow 那么 多 。 


为 什么 不 简单 地 使 用 Python 而 是 使 用 LuaJIT E? 官方 给 出 了 以 下 几 点 理由 。 
( 1 )LuaJIT 的 通用 计算 性 能 远 胜 于 Python , 而且 可 以 直接 在 LuaJIT 中 操作 C 的 pointers。 


(2) Torch 的 框架 , 包含 Lua 是 自治 的 ,而 完全 基于 Python 的 程序 对 不 同 平台 、 系 统 
移植 性 较 差 ， 依 赖 的 外 部 库 较 多 。 


(3) LuaJIT 的 FFI 拓展 接口 非常 易学 ， 可 以 方便 地 链接 其 他 库 到 Torch 中 。Torch 中 
还 专门 设计 了 N-Dimension array type 的 对 象 Tensor，Torch 中 的 Tensor 是 一 块 内 存 的 视 
图 ， 同 时 一 块 内 存 可 能 有 许多 视图 (Tensor) 指向 它 ， 这 样 的 设计 同时 兼顾 了 性 能 ( 直接 
面向 内 存 ) 和 便利 性 。 同 时 ，Torch 还 提供 了 不 少 相 关 的 库 ， 包 括 线性 代数 、 卷 积 、 传 里 
叶 变 换 、 绘 图 和 统计 等 ， 如 图 2-5 所 示 。 


torch image gX any lua package} 


imgraph 7 
nn gnuplot fmpeg cutorch 


randomkit cephes qt 


Lua CAPI 
图 2-5 Torch 提供 的 各 种 数据 处 理 的 库 
Torch 的 nn 库 支持 神经 网 络 、 自 编码 器 、 线 性 回归 、 卷 积 网 络 、 循 环 神经 网 络 等 ， 
同时 支持 定制 的 损失 函数 及 梯度 计算 。Torch 因为 使 用 了 LuaJIT,， 因此 用 户 在 Lua 中 做 数 
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据 预 处 理 等 操作 可 以 随意 使 用 循环 等 操作 ， 而 不 必 像 在 Python 中 那样 担心 性 能 问题 ， 也 
个 需要 学 习 Python 中 各 种 加 速 运算 的 库 。 不 过 ，Lua 相 比 Python 还 不 是 那么 主流 ， 对 大 
多 数 用 户 有 学 习 成 本 。Torch 在 CPU 上 的 计算 会 使 用 OpenMP、SSE 进行 优化 ，GPU 上 
使 用 CUDA 、cutorch cunn, cuDNN 进行 优化 , 同时 还 有 cuda-convnet 的 wrapper. Torch 
有 很 多 第 三 方 的 扩展 可 以 支持 RNN, 使 得 Torch 基本 支持 所 有 主流 的 网 络 。 和 Caffe 类 似 
的 是 ，Torch 也 是 主要 基于 Layer 的 连接 来 定义 网 络 的 。Torch 中 新 的 Layer 依然 需要 用 户 
目 己 实现 , 不 过 定义 新 Layer 和 定义 网 络 的 方式 很 相似 , 非常 简便 , 不 像 Caffe 那么 麻烦 ， 
用 户 需要 使 用 C++ 或 者 CUDA 定义 新 Layer。 同 时 ，Torch 属于 命令 式 编程 模式 ， 不 像 
Theano, 、TensorFlow 属于 声明 性 编程 ( 计算 图 是 预定 义 的 静态 的 结构 )， 所 以 用 它 实现 某 
些 复杂 操作 (比如 beam search ) 比 Theano 和 TensorFlow 方便 很 多 。 


2.2.9 Lasagne 
官网 网 址 : http://lasagne.readthedocs.io/ 


GitHub: github.com/Lasagne/Lasagne 


Lasagne 是 一 个 基于 Theano 的 轻 量 级 的 神经 网 络 库 。 它 支持 前 馈 神经 网 络 ， 比 如 卷 
积 网 络 、 循 环 神经 网 络 、LSTM 等 ， 以 及 它们 的 组 合 ; 支持 许多 优化 方法 ， 比 如 Nesterov 
momentum、RMSprop、ADAM 等 ; 它 是 Theano 的 上 层 封 装 ， 但 又 不 像 Keras 那样 进行 
了 重度 的 封装 , Keras 隐藏 了 Theano 中 所 有 的 方法 和 对 象 , 而 Lasagne 则 是 借用 了 Theano 
中 很 多 的 类 ， 算 是 介 于 基础 的 Theano 和 高 度 抽象 的 Keras 之 间 的 一 个 轻 度 封 装 ， 简 化 了 
操作 同时 支持 比较 底层 的 操作 。Lasagne 设计 的 六 个 原则 是 简洁 、 透 明 、 模 块 化 、 实 用 、 
聚焦 和 专注 。 


2.2.6 Keras 
官方 网 址 : keras.io 
GitHub: github.com/fchollet/keras 


Keras 是 一 个 崇尚 极 简 、 高 度 模块 化 的 神经 网 络 库 , 使 用 Python 实现 , 并 可 以 同时 运 
行 在 TensorFlow 和 Theano 上 。 它 划 在 让 用 户 进行 最 快速 的 原型 实验 ,让 想法 变 为 结果 的 
这 个 过 程 最 短 。Theano 和 TensorFlow 的 计算 图 支持 更 通用 的 计算 ， 而 Keras 则 专 精 于 深 
度 学 习 。Theano 和 TensorFlow 更 像 是 深度 学 习 领 域 的 NumPy， 而 Keras 则 是 这 个 领域 的 
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Scikit-learn。 它 提供 了 目前 为 止 最 方便 的 API， 用 户 只 需要 将 高 级 的 模块 拼 在 一 起 ， 就 可 
以 设计 神经 网 络 ， 它 大 大 降低 了 编程 开销 (code overhead ) 和 阅读 别人 代码 时 的 理解 开 
销 〈cognitive overhead )。 它 同时 支持 卷 积 网 络 和 循环 网 络 ， 支 持 级 联 的 模型 或 任意 的 图 
结构 的 模型 ( 可 以 让 菏 些 数据 跳 过 某 些 Layer 和 后 面 的 Layer 对 接 ， 使 得 创建 Inception 
等 复杂 网 络 变 得 容易 )， 从 CPU 上 计算 切换 到 GPU 加 速 无 须 任何 代码 的 改动 。 因 为 底层 
使 用 Theano 或 TensorFlow， 用 Keras 训练 模型 相 比 于 前 两 者 基本 没有 什么 性 能 损耗 (还 
可 以 享受 前 两 者 持续 开发 带 来 的 性 能 提升 )， 只 是 简化 了 编程 的 复杂 度 ， 节 约 了 笠 试 新 网 
络 结构 的 时 间 。 可 以 说 模型 越 复杂 ， 使 用 Keras 的 收益 就 越 大 , 尤其 是 在 高 度 依赖 权 值 共 
F., 、 多 模型 组 合 、 多 任务 学 习 等 模型 上 ，Keras 表现 得 非常 突出 。Keras 所 有 的 模块 都 是 
简洁 、 易 懂 、 完 全 可 配置 、 可 随意 插 拔 的 ， 并且 基 本 上 没有 任何 使 用 限制 ,神经 网 络 、 损 
失 函 数 、 优 化 器 、 初 始 化 方法 、 激 活 函 数 和 正则 化 等 模块 都 是 可 以 目 由 组 合 的 。Keras 也 
包括 绝 大 部 分 state-of-the-art 的 Trick, 包括 Adam、RMSProp、 Batch Normalization,PReLU, 
ELU, LeakyReLU 等 。 同 时 , 新 的 模块 也 很 容易 添加 , 这 让 Keras 非常 适合 最 前 沿 的 研究 。 
Keras 中 的 模型 也 都 是 在 Python 中 定义 的 ， 不 像 Caffe、CNTK 等 需要 额外 的 文件 来 定义 
模型 ， 这 样 就 可 以 通过 编程 的 方式 调试 模型 结构 和 各 种 超 参数 。 在 Keras 中 ， 只 需要 儿 行 
代码 就 能 实现 一 个 MLP, 或 者 十 几 行 代码 实现 一 个 AlexNet, 这 在 其 他 深度 学 习 框 染 中 基 
本 是 不 可 能 完成 的 任务 。Keras 最 大 的 问题 可 能 是 目前 无 法 直接 使 用 多 GPU, 所 以 对 大 规 
模 的 数据 处 理 速度 没有 其 他 支持 多 GPU 和 分 布 式 的 框架 快 。Keras 的 编程 模型 设计 和 
Torch 很 像 ， 但 是 相 比 Torch, Keras 构建 在 Python 上 ， 有 一 套 完 整 的 科学 计算 工具 链 ， 
而 Torch 的 编程 语言 Lua 并 没有 这 样 一 条 科学 计算 工具 链 。 无 论 从 社区 人 数 , 还 是 活跃 度 
来 看 ，Keras 目前 的 增长 速度 都 已 经 远 远 超过 了 Torch。 


2.2. MXNet 
官网 网 址 : mxnet.io 
GitHub; github.com/dmlc/mxnet 


MXNet 是 DMLC (Distributed Machine Learning Community ) 开发 的 一 款 开源 的 、 
轻 量 级 、 可 移植 的 、 灵 活 的 深度 学 习 库 , 它 让 用 户 可 以 混合 使 用 符号 编程 模式 和 指令 式 编 
程 模 式 来 最 大 化 效率 和 灵活 性 , 目前 已 经 是 AWS 官方 推荐 的 深度 学 习 框 架 。MXNet 的 很 
多 作者 都 是 中 国人 ， 其 最 大 的 贡献 组 织 为 百度 ， 同 时 很 多 作者 来 目 cxxnet、minerva 和 
purine2 等 深度 学 习 项 目 , 可 谓 博 采 众 家 之 长 。 它 是 各 个 框架 中 率先 支持 多 GPU 和 分 布 式 
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的 ， 同 时 其 分 布 式 性 能 也 非常 高 。MXNet 的 核心 是 一 个 动态 的 依赖 调度 器 ， 支 持 自动 将 
寺 算 任务 并 行 化 到 多 个 GPU 或 分 布 式 集群 (支持 AWS, Azure, Yam 等 )。 它 上 层 的 计算 
图 优化 算法 可 以 让 符号 计算 执行 得 非常 快 ， 而 且 节 约 内 存 ， 开 启 mirror 模式 会 更 加 省 内 
存 , 甚 至 可 以 在 菏 些 小 内 存 GPU 上 训练 其 他 框架 因 显 存 不 够 而 训练 不 了 的 深度 学 习 模型 ， 
也 可 以 在 移动 设备 4 Android, iOS ) 上 运行 基于 深 度 学 习 的 图 像 识 别 等 任务 。 此 外 , MXNet 
”的 一 个 很 大 的 优点 是 支持 非常 多 的 语言 封装 ， 比 如 CH, Python, R, Julia, Scala, Go, 
MATLAB 和 JavaScript 等 , 可 谓 非 常 全 面 , 基本 主流 的 脚本 语言 全 部 都 支持 了 。 在 MXNet 
中 构建 一 个 网 络 需要 的 时 间 可 能 比 Keras, Torch 这 类 高 度 封装 的 框架 要 长 ， 但 是 比 直接 
用 Theano 等 要 快 。MXNet 的 各 级 系统 架构 ( 下面 为 硬件 及 操作 系统 底层 ， 逐 层 向 上 为 越 
来 越 抽象 的 接口 ) 如 图 2-6 所 示 。 





2-6 MXNet 系统 架构 


2:2:8" DIGITS 
官方 网 址 : developer.nvidia.com/digits 


GitHub: github.com/NVIDIA/DIGITS 


DIGITS (Deep Learning GPU Training System ) 不 是 一 个 标准 的 深度 学 习 库 ， 它 可 
以 算是 一 个 Caffe 的 高 级 封装 (或 者 Caffe 的 Web 版 培训 系统 )。 因 为 封装 得 非常 重 ， 以 
至 于 你 不 需要 ( 也 不 能 ) 在 DIGITS 中 写 代码 ， 即 可 实现 一 个 深度 学 习 的 图 片 识别 模型 。 
在 Caffe 中 ， 定 义 模型 结构 、 预 处 理 数 据 、 进 行 训练 并 监控 训练 过 程 是 相对 比较 烦琐 的 ， 
DIGITS 把 所 有 这 些 操作 都 简化 为 在 浏览 器 中 执行 。 它 可 以 算 作 Caffe 在 图 片 分 类 上 的 一 
个 漂亮 的 用 户 可 视 化 界面 ( GUI )， 计 算 机 视觉 的 研究 者 或 者 工程 师 可 以 非常 方便 地 设计 
深度 学 习 模型 、 测 试 准确 率 ， 以 及 调试 各 种 超 参 数 。 同 时 使 用 它 也 可 以 生成 数据 和 训练 结 
来 的 可 视 化 统计 报表 ， 甚 至 是 网 络 的 可 视 化 结构 图 。 训 练 好 的 Caffe 模型 可 以 被 DIGITS 
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直接 使 用 ， 上 传 图 片 到 服务 器 或 者 输入 url 即 可 对 图 片 进 行 分 类 。 
2.2.9 CNTK 

BA PALE: cntk.ai 

GitHub: github.com/Microsoft/CNTK | 


CNTK ( Computational Network Toolkit) 是 微软 研究 院 (MSR ) 开源 的 深度 学 习 框 
染 。 它 最 早 由 start the deep learning craze 的 演讲 人 创建 ， 目 前 已 经 发 展 成 一 个 通用 的 、 
Ps Fe WARES AR, 在 语音 识别 领域 的 使 用 尤其 广泛 。CNTK 通过 一 个 有 向 图 将 神经 
网 络 搞 述 为 一 系列 的 运算 操作 , 这 个 有 向 图 中 子 节点 代表 输入 或 网 络 参数 , 其 他 节点 代表 
各 种 矩阵 运算 。CNTK 支持 各 种 前 馈 网 络 ， 包 括 MLP, CNN, RNN, 、LSTM 、 
Sequence-to-Sequence 模型 等 ， 也 支持 目 动 求解 梯度 。CNTK 有 丰富 的 细 粒 度 的 神经 网 络 
组 件 ， 使 得 用 户 不 需要 写 底层 的 C++ 或 CUDA， 就 能 通过 组 合 这 些 组 件 设计 新 的 复杂 的 
Layer。CNTK 拥有 产品 级 的 代码 质量 ， 支 持 多 机 、 多 GPU 的 分 布 式 训练 。 


CNTK 设计 是 性 能 导向 的 , 在 CPU、 单 GPU、 多 GPU, LAX GPU 集群 上 都 有 非常 
优异 的 表现 。 同时 微软 最 近 推 出 的 1-bit compression 技术 大 大 降低 了 通信 代价 , 让 大 规模 
并 行 训练 拥有 了 很 高 的 效率 。CNTK 同时 宣称 拥有 很 高 的 灵活 度 ， 它 和 Caffe 一 样 通过 配 
置 文件 定义 网 络 结构 ,再 通过 命令 行程 序 执行 训练 ,支持 构建 任意 的 计算 图 , 文 持 AdaGrad 
RmsProp 等 优化 方法 。 它 的 男 一 个 重要 特性 就 是 拓展 性 ，CNTK 除了 内 置 的 大 量 运算 核 ， 
还 允许 用 户 定 义 他 们 自己 的 计算 节点 ， 支 持 高 度 的 定制 化 。CNTK 在 2016 年 9 月 发 布 了 
对 强化 学 习 的 支持 , 同时 , 除了 通过 写 配置 文件 的 方式 定义 网 络 结构 ,CNTK 还 将 支持 其 
他 语言 的 绑 定 ， 包 括 Python、C++ 和 C#， 这 样 用 户 就 可 以 用 编程 的 方式 设计 网 络 结构 。 
CNTK 5 Caffe 一 样 也 基于 C++ 并 且 跨 平台 ， 大 部 分 情况 下 ， 它 的 部 署 非 党 简单 。PC 上 
支持 Linux、Mac 和 Windows， 但 是 它 目 前 不 支持 ARM 架构 ， 限 制 了 其 在 移动 设备 上 的 
发 挥 。 图 2-7 所 示 为 CNTK 目前 的 总 体 架 构图 。 
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图 2-7 CNTK 的 总 体 架 构图 


CNTK 原生 支持 多 GPU 和 分 布 式 ， 从 官网 公布 的 对 比 评测 来 看 ， 性 能 非常 不 错 。 在 
多 GPU 方面 ，CNTK 相对 于 其 他 的 深度 学 习 库 表现 得 更 突出 ， 它 实现 了 1-bit SGD 和 自 
适应 的 mini-batching。 图 2-8 所 示 为 CNTK 官网 公布 的 在 2015 年 12 月 的 各 个 框架 的 性 能 
对 比 。 在 当时 ，CNTK 是 唯一 支持 单机 8 块 GPU 的 框架 ， 并 且 在 分 布 式 系统 中 可 以 超越 
8 块 GPU 的 性 能 。 


Speed Comparison (Frames/Second, The Higher the Better) 


We report 8 GPUs (2 machines) for CNTK only as it is the only, 

` public toolkit that can scale beyond a single machine. Our system 
can scale beyond 8 GPUs across mulaple machines with superion 
.disuibuted system performance. 


i f 
a 
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MiGPU #1x4GPUs 2x4 GPUs (8 GPUs 





图 2-8 CNTK 与 各 个 框架 的 性 能 对 比 
2.2.10 Deeplearning4J 
官方 网 址 : http://deeplearning4j.org/ 


GitHub: github.com/deeplearning4j/deeplearning4j 
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Deeplearning4J ( 简称 DL4J ) 是 一 个 基于 Java 和 Scala 的 开源 的 分 布 式 深度 学 习 库 ， 
由 Skymind 于 2014 年 6 月 发 布 ， 其 核心 目标 是 创建 一 个 即 插 即 用 的 解决 方案 原型 。 埃 森 
哲 、 雪 弗 兰 、 博 斯 咨询 和 IBM 等 都 是 DLA 的 客户 。 DL4J 拥有 一 个 多 用 途 的 n-dimensional 
array 的 类 ， 可 以 方便 地 对 数据 进行 各 种 操作 ; 拥有 多 种 后 端 计算 核心 ,用 以 支持 CPU 及 
GPU 加 速 ， 在 图 像 识 别 等 训练 任务 上 的 性 能 与 Caffe 相当 ; 可 以 与 Hadoop 及 Spark 自动 
整合 ， 同 时 可 以 方便 地 在 现 有 集群 (包括 但 不 限于 AWS, Azure 等 ) 上 进行 扩展 ， 同 时 
DL4J 的 并 行 化 是 根据 集群 的 节点 和 连接 自动 优化 ， 不 像 其 他 深度 学 习 库 那 样 可 能 需要 用 
户 手动 调整 。DL4J 选择 Java 作为 其 主要 语言 的 原因 是 ， 目 前 基于 Java 的 分 布 式 计算 、 
云 计 算 、 大 数据 的 生态 非常 庞大 。 用 户 可 能 拥有 大 量 的 基于 Hadoop 和 Spark 的 集群 ， 因 
此 在 这 类 集群 上 搭建 深度 学 习 平 台 的 需求 便 很 容易 被 DL4J 满足 。 同 时 JVM 的 生态 圈 内 
还 有 数不胜数 的 Library 的 支持 ， 而 DLA 也 创建 了 ND4J， 可 以 说 是 JVM 中 的 NumPy, 
支持 大 规模 的 矩阵 运算 。 此 外 ，DL4J 还 有 商业 版 的 支持 ， 付 费用 户 在 出 现 问 题 时 可 以 通 
过 电话 咨询 寻求 支持 。 


2.2.11 Chainer 
官方 网 址 : chainer.org 
GitHub: github.com/pfnet/chainer 


Chainer 是 由 日 本 公司 Preferred Networks 于 2015 年 6 月 发 布 的 次 度 学 习 框 架 。Chainer 
对 目 己 的 特性 描述 如 下 。 


(1) Powerful: 支持 CUDA 计算 ， 只 需要 几 行 代码 就 可 以 使 用 GPU 加 速 ， 同 时 只 需 
少许 改动 就 可 以 运行 在 多 GPU Eo 

(2) Flexible: 支持 多 种 前 馈 神 经 网 络 ， 包 括 卷 积 网 络 、 循 环 网 络 、 递 归 网 络 ， 文 持 
运行 中 动态 定义 的 网 络 ( Define-by-Run )。 | 

(3) Intuitive: 前 馈 计 算 可 以 引入 Python 的 各 种 控制 流 ， 同 时 反 向 传播 时 不 受 干扰 ， 
简化 了 调试 错误 的 难度 。 

绝 大 多 数 的 深度 学 习 框架 是 基于 “Define-and-Run” 的 ， 也 就 是 说 ， 需 要 首先 定义 一 
个 网 络 ， 再 向 网 络 中 feed 数据 ( mini-batch )。 因 为 网 络 是 预先 静态 定义 的 ， 所 有 的 控制 


逻辑 都 需要 以 data 的 形式 插入 网 络 中 ， 包 括 像 Caffe 那样 定义 好 网 络 结构 文件 ， 或 者 像 
Theano, Torch, TensorFlow 等 使 用 编程 语言 定义 网 络 。 而 Chainer 则 相反 ， 网 络 是 在 实际 
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运行 中 定义 的 ，Chainer 存储 历史 运行 的 计算 结果 ， 而 不 是 网 络 的 结构 逻辑 ， 这 样 就 可 以 
方便 地 使 用 Python 中 的 控制 流 ， 所 以 无 须 其 他 工作 就 可 以 直接 在 网 络 中 使 用 条 件 控 制 和 
JA. 


2.2.12 Leaf 
官方 网 址 : autumnai.com/leaf/book 


GitHub; github.com/autumnai/leaf 


Leaf 是 一 个 基于 Rust 语言 的 直观 的 跨 平 台 的 深度 学 习 乃 至 机 器 智能 框架 ， 它 拥有 一 
个 清晰 的 架构 ， 除 了 同属 Autumn AI 的 底层 计算 库 Collenchyma，Leaf 没有 其 他 依赖 库 。 
它 易 于 维护 和 使 用 ， 并 且 拥 有 非常 高 的 性 能 。Leaf 自身 宣传 的 特点 是 为 Hackers 定制 的 ， 
这 里 的 Hackers 是 指 希 望 用 最 短 的 时 间 和 最 少 的 精力 实现 机 器 学 习 算法 的 技术 极 客 。 它 的 
可 移植 性 非常 好 ， 可 以 运行 在 CPU. GPU 和 FPGA 等 设备 上 ， 可 以 支持 有 任何 操作 系统 
的 PC、 服 务 器 ， 甚 至 是 没有 操作 系统 的 谍 入 式 设 备 ， 并 且 同 时 支持 OpenCL 和 CUDA. 
Leaf 是 Autumn AI 计划 的 一 个 重要 组 件 ， 后 者 的 目标 是 让 人 工 智 能 算法 的 效率 提高 100 
冶 。 凭 借 其 优秀 的 设计 ，Leaf 可 以 用 来 创建 各 种 独立 的 模块 ， 比 如 深度 强化 学 习 、 可 视 
化 监控 、 网 络 部 署 、 自 动 化 预 处 理 和 大 规模 产品 部 署 等 。 

Leaf 拥有 最 简单 的 API, 希 望 可 以 最 简化 用 户 需 要 掌握 的 技术 栈 。 虽 然 才刚 诞生 不 久 ， 
Leaf RECA FRRWRES HERS ST. B 2-9 所 示 为 Leaf 官网 公布 的 各 个 框架 在 
单 GPU 上 训练 VGG 网 络 的 计算 时 间 ( 越 小 越 好 ) 的 对 比 〈 这 是 和 早期 的 TensorFlow 对 
比 ， 最 新 版 的 TensorFlow 性 能 已 经 非常 好 了 )。 


1000 


time in ms 


uw 
© 
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2-9 Leaf 和 各 深度 学 习 框 架 的 性 能 对 比 ( 深 色 为 forawrd, EJ backward ) 
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2.213  DSSiTNE 
GitHub: github.com/amznlabs/amazon-dsstne 


DSSTNE (Deep Scalable Sparse Tensor Network Engine ) WV Sib IR RI 
HER, EVA EARN R ARKAA. DSSTNE 目前 只 支持 全 连接 的 神 
经 网 络 ， 不 支持 卷 积 网 络 等 。 和 Caffe 类 似 ， 它 也 是 通过 写 一 个 ISON 类 型 的 文件 定义 模 
型 结构 ， 但 是 支持 非常 大 的 Layer ( 输入 和 输出 节点 都 非常 多 ); 在 激活 函数 、 初 始 化 方 
式 及 优化 器 方面 基本 都 支持 了 state-of-the-art 的 方法 ,比较 全 面 ;支持 大 规模 分 布 式 的 GPU 
训练 ， 不 像 其 他 框架 一 样 主要 依赖 数据 并 行 ，DSSTNE 支持 自动 的 模型 并 行 〈 使 用 数据 
并 行 需要 在 训练 速度 和 模型 准确 度 上 做 一 定 的 trade-off， 模 型 并 行 没有 这 个 问题 )。 


在 处 理 特征 非常 多 (上 亿 维 ) 的 稀疏 训练 数据 时 ( 经 常 在 推荐 、 广 告 、 目 然 语言 处 理 
任务 中 出 现 )， 即 使 一 个 简单 的 3 个 隐 层 的 MLP ( Multi-Layer Perceptron ) 也 会 变 成 一 个 
有 非常 多 参数 的 模型 ( 可 能 高 达 上 万 亿 )。 以 传统 的 稠密 矩阵 的 方式 训练 方法 很 难处 理 这 
么 多 的 模型 参数 ， 更 不 必 提 超大 规模 的 数据 量 ， 而 DSSTNE 有 整套 的 针对 黎 芍 数据 的 优 
化 ， 率 先 实现 了 对 超大 稀疏 数据 训练 的 支持 ， 同 时 在 性 能 上 做 了 非常 大 的 改进 。 


在 DSSTNE 官方 公布 的 测试 中 ,DSSTNE 在 MovieLens 的 稀疏 数据 上 ,在 单 M40 GPU 
上 取得 了 比 TensorFlow 快 14.8 倍 的 性 能 提升 (注意 是 和 老 版 的 TensorFlow 比较 )， 如 图 
2-10 所 示 。 一 方面 是 因为 DSSTNE 对 稀 矿 数据 的 优化 ， 另 一 方面 是 TensorFlow 在 数据 传 
输 到 GPU 上 时 花费 了 大 量 时 间 , 而 DSSTNE 则 优化 了 数据 在 GPU 内 的 保留 ;同时 DSSTNE 
还 拥有 自动 模型 并 行 功 能 ， 而 TensorFlow 中 则 需要 手动 优化 ， 没 有 目 动 支持 。 


MovieLens 20M Sparse Data Epoch Times(s) 





图 2-10 DSSTNE 在 稀疏 数据 上 与 TensorFlow 的 性 能 对 比 
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BUPA eT 了 TensorFlow 的 核心 概念 和 编程 模型 ， 又 谈 了 TensorFlow 和 其 他 深度 
学 习 框 架 的 异同 。 本 章 将 直 奔 主题 ， 我 们 将 学 会 安装 TensorFlow， 然 后 使 用 TensorFlow 
( 1.0.0-rc0 ) 训练 一 个 手写 数字 识别 ( MNIST ) 的 模型 。 


3.1 TensorFlow 的 编译 及 安装 


TensorFlow 的 安装 方式 没有 Theano 那么 直接 ,因为 它 并 不 是 全 部 由 Python 写成 的 库 ， 
底层 有 很 多 C++ 乃 至 CUDA 的 代码 ， 因 此 某 些 情况 下 可 能 需要 编译 安装 (比如 你 的 gcc 
版 本 比较 新 ， 硬 件 环境 比较 特殊 ， 或 者 你 使 用 的 CUDA 版 本 不 是 realease 版 预 编 译 的 )。 
通常 安装 TensorFlow 分 为 两 种 情况 ， 一 种 是 只 使 用 CPU， 安装 相对 容易 ; 另 一 种 是 使 用 
GPU， 这 种 情况 还 需要 安装 CUDA 和 cuDNN， 人 情况 相对 复杂 。 然 而 不 管 哪 种 情况 ,我 们 
都 推荐 使 用 Anaconda” {FA Python 环境 ， 因 为 可 以 避免 大 量 的 兼容 性 问题 。 另 外 ， 本 书 
默认 使 用 Python 3.5 作为 Python 的 基础 版 本 ， 相 比 Python 2.7， 它 更 代表 了 Python 未 来 
的 趋势 发 展 。TensorFlow 目前 支持 得 比较 完善 的 是 Linux 和 Mac ( 对 Windows 的 支持 还 
不 太 全 面 )。 因 为 Mac 系统 主要 使 用 CPU 版 本 ( Mac 系统 很 少 有 使 用 NVIDIA 显卡 的 ， 
而 目前 TensorFlow 对 CUDA 支持 得 比较 好 ， 对 OpenCL 的 支持 还 属于 实验 性 质 )， 安 装 
方式 和 Linux 的 CPU 版 基本 一 致 ， 而 Mac 一 般 没 有 NVIDIA 的 显卡 ， 所 以 不 适合 使 用 
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GPU 版 本 。 本 章 将 主要 讲解 在 Linux 下 安装 TensorFlow 的 过 程 。 另 外 ， 本 书 基于 2017 
年 1 月 发 布 的 TensorFlow 1.0.0-rc0 版 ， 旧 版 本 在 运行 本 书 的 代码 时 可 能 会 有 不 兼容 的 情 
况 ， 所 以 建议 读者 都 安装 这 个 版 本 或 更 新 版 本 的 TensorFlow。 此 外 ， 本 书 推荐 有 条 件 的 
读者 使 用 GPU 版 本 ， 因 为 在 训练 大 型 网 络 或 者 大 规模 数据 时 ,CPU 版 本 的 速度 可 能 会 很 


慢 
5o 


3.1.1 ”安装 Anaconda 


Anaconda 是 Python 的 一 个 科学 计算 发 行 版 ， 内 置 了 数 百 个 Python 经 常会 使 用 的 库 ， 
也 包括 许多 我 们 做 机 器 学 习 或 数据 挖 据 的 库 ， 包 括 Scikit-learn、NumPy、SciPy 和 Pandas 
等 ， 其 中 可 能 有 一 些 还 是 TensorFlow 的 依赖 库 。 我 们 在 安装 这 些 库 时 ， 通 弟 都 需要 伦 费 
不 少时 间 编 译 ， 而 且 经 常 容易 出 现 兼容 性 问题 ，Anaconda 提供 了 一 个 编译 好 的 环境 可 以 
直接 安装 。 同 时 Anaconda 自动 集成 了 最 新 版 的 MKL (Math Kernel Libaray ) Æ, XÆ 
Intel 推出 的 底层 数值 计算 库 ， 功 能 上 包含 了 BLAS (Basic Linear Algebra Software ) 等 
矩阵 运算 库 的 功能 ， 可 以 作为 NumPy、SciPy、Scikit-leam、NumExpr 等 库 的 底层 依赖 ， 
加 速 这 些 库 的 矩阵 运算 和 线性 代数 运算 。 简 单 来 说 ，Anaconda 是 目前 最 好 的 科学 计算 的 
Python 环境 ， 方 便 了 安装 ， 也 提高 了 性 能 。 本 书 强烈 推荐 安装 Anaconda， 接 下 来 的 章 市 
也 将 默认 读者 使 用 Anaconda 作为 TensorFlow 的 Python 环境 。 

( 1 ) 我 们 在 Anaconda 的 官网 上 ( www.continuum.io/downloads ) 下 载 Anaconda3 4.2.0 
版 ， 请 读者 根据 自己 的 操作 系统 下 载 对 应 版 本 的 64 位 的 Python 3.5 版 。 

(2) 我 们 在 Anaconda 的 下 载 目 录 执 行 以 下 命令 ( 请 根据 下 载 的 文件 替换 对 应 的 文件 
名 )。 
bash Anaconda3-4.2.0-Linux-x86_64.sh 

(3) 接 下 来 我 们 会 看 到 安装 提示 ， 直 接 按 回 车 键 确认 进入 下 一 步 。 然 后 我 们 会 进入 
Anaconda 的 License 文档 ， 这 里 直接 按 q 键 跳 过 ， 然 后 输入 yes 确认 。 下 面 的 这 一 步 会 让 
我 们 输入 anaconda3 的 安装 路 径 ， 没 有 特殊 情况 的 话 ， 我 们 可 以 按 回 车 键 使 用 默认 路 径 ， 
然后 安装 就 目 动 开始 了 。 


(4) 安装 完成 后 ,程序 提示 我 们 是 否 把 anaconda3 的 binary 路 径 加 入 到 .bashrc， 读 者 
可 以 根据 自己 的 情况 考虑 ， 建 议 添 加 ， 这 样 以 后 python 和 ipython 命令 就 会 自动 使 用 
Anaconda Python3.5 的 环境 了 。 
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3.1.2 TensorFlow CPU 版 本 的 安装 


TensorFlow 的 CPU 版 本 相对 容易 安装 ， 一 般 分 为 两 种 情况 第 一 种 情况 ， 安 装 编译 
好 的 release 版 本 ， 推 荐 大 部 分 用 户 安装 这 种 版 本 ; 第 二 种 情况 ， 使 用 1.0.0-rc0 分 支 源码 
编译 安装 ， 当 用 户 的 系统 比较 特殊 ， 比 如 gcc 版 本 比较 新 (gce 6 以 上 )， 或 者 不 支持 使 
用 编译 好 的 release 版 本 ， 才 推荐 这 样 安装 。 


第 一 种 情况 , 安装 编译 好 的 release 版 本 , 我 们 可 以 简单 地 执行 下 面 这 个 命令 。python - 
的 默认 包 管 理 器 是 pip， 直 接 使 用 pip 来 安装 TensorFlow。 对 于 Mac 或 Windows AR, 可 
在 TensorFlow 的 GitHub 仓库 上 的 Download and Setup 页 面 查看 编译 好 的 程序 的 地 址 。 


export TF_BINARY_URL=https://storage.googleapis.com/tensorflow/linux/cpu/ten 
sorflow-1.0.0rc@-cp35-cp35m-linux_x86_64.whl 
pip install --upgrade $TF_BINARY_URL 


第 二 种 情况 ， 使 用 1.0.0-rc0 分 支 的 源码 编译 安装 。 

此 时 ， 确 保 系统 安装 了 gcc( 版 本 最 好 介 于 4.8 ~ 5.4 之 间 )， 如 果 没 有 安装 ， 请 根据 
目 己 的 系统 情况 先 安装 geo, AAPA. US, WS Bait TensorFlow， 我 们 还 需要 有 
Google 自家 的 编译 工具 bazel ( github.com/bazelbuild/bazel ) ， 根 据 其 安装 教程 
( www.bazel.io/versions/master/docs/install.html ) 直接 安装 它 的 v0.43 release 版 本 即 可 ， 不 
需要 使 用 最 新 的 dev 版 本 的 功能 。 


在 正确 地 安装 完 gcc 和 bazel 之 后 ， 接 下 来 我 们 正式 开始 编译 安装 TensorFlow， 首 先 
先 下 载 TensorFlow 1.0.0-rc0 的 源码 : 


wget https://github.com/tensorflow/tensorflow/archive/v1i.60.0-rce.tar.gz 


tar -xzvf v1.0.0-rc®.tar.gz 


. 


完成 下 载 之 后 ， 进 入 TensorFlow 代码 仓库 的 目录 ， 然 后 执行 下 面 的 命令 进行 配置 : 
cd tensorflow-1.0.0-rce@ 


./configure 


接 下 来 的 输出 要 选择 python 路 径 ， 确 保 是 anaconda 的 python 路 径 即 可 : 


Please specify the location of python. [Default is /home/wenjian/anaconda3/b 
in/python]: 
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这 里 选择 CPU 编译 优化 选项 ,默认 的 -march=native 将 选择 本 地 CPU 能 支持 的 最 佳 配 
置 ， 比 如 SSE4.2、AVX 等 。 建 议 选 择 默 认 值 。 


Please specify optimization flags to use during compilation [Default is -m 
arch=native |: 
选择 是 否 使 用 jemalloc 作为 默认 的 malloc 实现 ( 仅 限 Linux ), 建议 选择 默认 设置 。 
Do you wish to use jemalloc as the malloc implementation? (Linux only) [Y/ 
a 
然后 它 会 让 我 们 选择 是 否 开启 对 Google Cloud Platform 的 支持 ， 这 个 在 国内 一 般 是 
访问 不 到 的 ， 有 需要 的 用 户 可 以 选择 支持 ， 通 前 选 N 即 可 : 
Do you wish to build TensorFlow with Google Cloud Platform support? [y/N] 
它 会 询问 是 否 需 要 文 持 Hadoop File System， 如 果 有 读 取 HDFS 数据 的 需求 ,请 选 y 
选项 ， 否 则 就 选 默认 的 N 即 可 : 
Do you wish to build TensorFlow with Hadoop File System support? [y/N] 
选择 是 否 开 启 XLA JIT 编译 编译 功能 支持 。 这 里 XLA 是 TensorFlow 目前 实验 性 的 


JIT (Just in Time )、AOT ( Ahead of Time ) 编译 优化 功能 ， 还 不 太 成 熟 ， 有 探索 欲望 的 
读者 可 以 尝试 开启 。 


Do you wish to build TensorFlow with the XLA just-in-time compiler (experi 


mental)? [y/N] 
然后 它 会 让 我 们 选择 python 的 library 路 径 ， 这 里 依然 选择 anaconda 的 路 径 : 
Please input the desired Python library path to use. Default is 
接着 选择 不 需要 使 用 GPU， 即 OpenCL 和 CUDA 全 部 选 N: 
Do you wish to build TensorFlow with OpenCL support? [y/N] 


Do you wish to build TensorFlow with CUDA support? [y/N] 


之 后 可 能 需要 下 载 一 些 依赖 库 的 文件 ， 完 成 后 configure 就 顺利 结束 了 ， 接 下 来 使 用 
编译 命令 执行 编译 : 
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bazel build --copt=-march=native -c opt //tensorflow/tools/pip_package:build 
_pip_package 


编译 结束 后 ， 使 用 下 面 的 命令 生成 pip 安装 包 : 


bazel-bin/tensorflow/tools/pip_package/build_pip_package /tmp/tensorflow_pkg 


最 后 ， 使 用 pip 命令 安装 TensorFlow: 


pip install /tmp/tensorflow_pkg/tensorflow-1.0.@rc@-cp35-cp35m-linux_x86 64. 
whl 


3.1.3. TensorFlow GPU 版 本 的 安装 


TensorFlow 的 GPU 版 本 安装 相对 复杂 。 目 前 TensorFlow 仅 对 CUDA 支持 较 好 ， 因 
此 我 们 首先 需要 一 块 NVIDIA 显卡 ，AMD 的 显卡 只 能 使 用 实验 性 支持 的 OpenCL， 效 果 
不 是 很 好 。 接 下 来 ， 我 们 需要 安装 显卡 驱动 、CUDA 和 cuDNN。 


CUDA Æ NVIDIA 推出 的 使 用 GPU 资产 进行 通用 计算 ( Genral Purpose GPU ) 的 SDK, 
CUDA 的 安装 包 里 一 般 集 成 了 显卡 驱动 ， 我 们 直接 去 官网 下 载 NVIDIA CUDA 
( https://developer.nvidia.com/cuda-toolkit )。 


在 安装 前 , 我 们 需要 暂停 当前 NVIDIA 驱动 的 X server， 如 果 是 远程 连接 的 Linux 机 
器 ， 可 以 使 用 下 面 这 个 命令 关闭 X server: 
sudo 2 | ese : À 

之 后 ， 我 们 将 CUDA 的 安装 包 权 限 设置 成 可 执行 的 ， 并 执行 安装 程序 : 
chmod u+x cuda 8.6.44 linux.run z 


sudo; /Cuda8 0.44 Un 全 
接 下 来 我 们 正式 进入 CUDA 的 安装 过 程 ， 先 按 q 键 跳 过 开头 的 license 说 明 ， 接 着 输 
入 accept 接收 协 以 ， 然 后 按 y 键 选择 安装 驱动 程序 : 


Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 367.48? 
(y)es/(n)o/(q)uit: 


4% y 键 选择 安装 CUDA 并 确认 安装 路 径 ， 一 般 可 直接 使 用 默认 地 址 : 


Install the CUDA 8.0 Toolkit? 
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(y)es/(n)o/(q)uit: 
Enter Toolkit Location 


[ default is /usr/local/cuda-8.0 ]: 


按 n 键 不 选择 安装 CUDA samples (我们 只 是 通过 TensorFlow 调用 CUDA, AER 
写 CUDA 代码 ): 


Install the CUDA 8.0 Samples? 
(y)es/(n)o/(q)uit: 
BS EFF TEM o 
接 下 来 安装 cuDNN ,cuDNN 是 NVIDIA 推出 的 深度 学 习 中 CNN 和 RNN 的 高 度 优化 
的 实现 。 因 为 底层 使 用 了 很 多 先进 技术 和 接口 (没有 对 外 开源 )， 因 此 比 其 他 GPU 上 的 
a AIS EERE aD, AHBAS ARES ERE cuDNN 来 驱动 GPU 村 
算 。 我 们 先 从 官网 下 载 cuDNN ( https://developer.nvidia.com/rdp/cudnn-download )， 这 一 步 
pe NVIDIA 的 账号 并 等 和 审核 ( 需要 一 段 时 间 )。 


接 下 来 再 安装 cuDNN， 我 们 到 cuda 的 安 闭 目录 执行 解压 命令 : 


cd /usr/local 


sudo tar -xzvf ~/downloads/cudnn-8. deter Na Selon eae 


这 样 就 完成 了 cuDNN 的 安装 ， 但 我 们 可 能 还 需要 在 系统 环境 ARRE CUDA 的 路 径 : 


vim ~/.bashrc 

export LD_LIBRARY_PATH=/usr/local/cuda-8.@/1ib64: /usr/local/cuda-8.@/extras/ 
CUPTI/1ib64:$LD LIBRARY PATH | i | 

export CUDA_HOME=/usr/local/cuda-8.@ 

export PATH=/usr/local/cuda-8.@/bin:$PATH 


source ~/.bashrc. 
接 下 来 ,我 们 开始 安装 TensorFlow。 对 GPU 版 的 TensorFlow， 官 网 也 提供 了 预 编译 


的 包 , 但 是 这 个 预 编译 版 对 本 地 的 各 种 依赖 环境 支持 可 能 是 最 佳 的 , 如 果 读 者 试用 过 没 
有 任何 兼容 性 问题 ， 可 以 直接 安装 预 编译 版 的 TensorFlow: 


export TF_BINARY_URL=https://storage.googleapis.com/tensorflow/linux/gpu/ten 
sorflow_gpu-1.0.@rc@-cp35-cp35m-linux_x86_64.whl 
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pip install --upgrade $TF_BINARY_URL 


如 果 预 编译 的 版 本 不 支持 当前 的 CUDA, cuDNN 版 本 ， 或 者 存在 其 他 兼容 性 问题 ， 
可 以 进行 编译 安装 ,和 前 面 提 到 的 CPU 版 本 的 编译 安装 类 似 , 我 们 需要 先 安装 gee 和 bazel, 
接 下 来 下 载 TensorFlow 1.0.0-rc0 的 代码 , 然后 使 用 配置 程序 ( ./configure ) 进 行 编译 配置 ， 
前 面 几 步 和 CPU 版 本 的 安装 完全 一 致 ， 直 到 选择 是 否 文 持 CUDA 这 一 步 : 


Do you wish to build TensorFlow with CUDA support? [y/N] 


我 们 按 y 键 选择 支持 GPU ， 接 下 来 选择 指定 的 gcc 编译 器 ， 一 般 选 默认 设置 就 好 。 


Please specify which gcc should be used by nvcc as the host compiler. [Defau 


It is /usr/bin/gcc]: 


接 下 来 选择 要 使 用 的 CUDA 版 本 、CUDA 安装 路 径 、cuDNN 版 本 和 cuDNN 的 安装 
BRA, 这 里 使 用 的 是 CUDA 8.0 版 本 , 所 以 CUDA SDK Version 设置 为 8.0, 路 径 设置 为 
/usr/local/cuda-8.0，cuDNN Version 设置 为 5.1，cuDNN 路 人 径 也 设置 为 /usr/local/cuda-8.0: 


Please specify the Cuda SDK version you want to use, e.g. 7.0. [Leave empty 

to use system default]: 

Please specify the location where CUDA toolkit is installed. Refer to README. 

md for more details. [Default is /usr/local/cuda]: 

Please specify the Cudnn version you want to use. [Leave empty to use system 
default]: 

Please specify the location where cuDNN library is installed. Refer to READM 


E.md for more details. [Default is /usr/local/cuda]: 


最 后 将 选择 GPU 的 compute capability (CUDA 的 计算 兼容 性 ), 不 同 的 GPU 可 能 有 
个 同 的 compute capability, 我 们 可 以 在 官网 查 到 具体 数值 ,比如 GTX 1080 和 新 Titan X 
是 6.1, m GTX 980 和 旧版 的 GTX Titan X Æ 5.2. 


Please note that each additional compute capability significantly increases 
your build time and binary size. 
[Default cis 24°3..55532" 13 

至 此 , 配置 完成 , 配置 程序 可 能 会 开始 下 载 对 应 的 需要 其 他 库 的 代码 仓库 , 我 们 耐心 
等 待 一 会 儿 束 好 。 
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接 下 来 , 开始 编译 GPU 版 本 的 TensorFlow, 执行 下 面 这 个 命令 , 注意 和 CPU 版 本 的 
编译 相 比 ， 这 里 多 了 一 个 --config=cuda: 
bazel build --copt=-march=native -c opt --config=cuda //tensorflow/tools/pip 


_package:build_pip package 
编译 大 概 需要 花费 一 段 时 间 ， 之 后 执行 命令 生成 pip 安装 包 并 进行 安装 : 
bazel-bin/tensorflow/tools/pip_package/build pip package /tmp/tensorflow_pkg 


pip install /tmp/tensorflow_pkg/tensorflow-1.0.98rc@-cp35-cp35m-linux_x86_64. 
whl 


3.2 TensorFlow 实现 Softmax Regression 识别 手写 数字 


3.1 节 介 绍 了 安装 TensorFlow， 接 下 来 我 们 就 以 一 个 机 器 学 习 领 域 的 Hello World 任 
务 一 一 MNIST 手写 数字 识别 来 探索 TensorFlow。MNIST” (Mixed National Institute of 
Standards and Technology database ) 是 一 个 非常 简单 的 机 器 视觉 数据 集 ， 如 图 3-1 Arm, 
它 由 几 万 张 28 像素 x28 像素 的 手写 数字 组 成 ， 这 些 图 片 只 包含 灰 度 值 信息 。 我 们 的 任务 
就 是 对 这 些 手写 数字 的 图 片 进行 分 类 ， 转 成 0~9 一 共 10 类 。 


图 3-1 MNIST 手写 数字 图 片 示 例 
首先 对 MNIST 数据 进行 加 载 ，TensorFlow 为 我 们 提供 了 一 个 方便 的 封装 ， 可 以 直接 
加 载 MNIST 数据 成 我 们 期 望 的 格式 ， 在 ipython 命令 行 或 者 spyder 中 直接 运行 下 面 的 代 
码 。 本 节 代 码 主要 来 自 TensorFlow 的 开源 实现 “。 


from tensorflow.examples.tutorials.mnist import input_data 


mnist = input_ data.read_ data _sets(’ ‘MNIST _data/", one_ hot= True) 


然后 查看 mnist 这 个 数据 集 的 情况 ,可 以 看 到 训练 集 有 55000 个 样本 ,测试 集 有 10000 
个 样本 ， 同 时 验证 集 有 5000 个 样本 。 每 一 个 样本 都 有 它 对 应 的 标注 信息 ， 即 label. FRA] 
将 在 训练 集 上 训练 模型 , 在 验证 集 上 检验 效果 并 决定 何 时 完成 训练 , 最 后 我 们 在 测试 集 评 
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测 模型 的 效果 (〈 可 通过 准确 率 、 召 回 率 、Fl-score 等 评测 )。 


print(mnist.train.images.shape, mnist.train.labels.shape) 
print(mnist.test.images.shape, mnist.test.labels.shape) 


print(mnist.validation.images.shape, mnist.validation.labels.shape) 


前 面 提 到 我 们 的 图 像 是 28 像素 x28 像素 大 小 的 灰 度 图 片 ， 如 图 3-2 所 示 。 空 白 部 分 
全 部 为 0， 有 笔迹 的 地 方 根据 颜色 深浅 有 0 到 1 之 间 的 取 值 。 同 时 ,我们 可 以 发 现 每 个 样 
本 有 784 维 的 特征 ， 也 就 是 28x28 个 点 的 展开 成 1 维 的 结果 (28x28=784 )。 因 此 ， 这 里 
丢弃 了 图 片 的 二 维 结构 方面 的 信息 , 只 是 把 一 张 图 片 变 成 一 个 很 长 的 1 维 向 量 。 读者 可 能 
会 问 , 图 片 的 空间 结构 信息 不 是 很 有 价值 吗 , 为 什么 我 们 要 丢弃 呢 ? 因为 这 个 数据 集 的 分 
类 任务 比较 简单 ， 同 时 也 是 我 们 使 用 TensorFlow 的 第 一 次 尝试 ， 我 们 不 需要 建立 一 个 太 
复杂 的 模型 , 所 以 简化 了 问题 , 丢弃 空间 结构 的 信息 。 后 面 的 章节 将 使 用 卷 积 神经 网 络 对 
空间 结构 信息 进行 利用 , 并 取得 更 高 的 准确 率 。 我们 将 图 片 展开 成 1 维 向 量 时 , 顺序 并 不 
重要 ， 只 要 每 一 张 图 片 都 是 用 同样 的 顺序 进行 展开 的 就 可 以 。 
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3-2 手写 数字 灰 度 信息 示例 


我 们 的 训练 数据 的 特征 是 一 个 55000x784 的 Tensor， 第 一 个 维度 是 图 片 的 编号 ， 第 
二 个 维度 是 图 片 中 像素 点 的 编号 , 如 图 3-3 所 示 。 同时 训练 的 数据 Label 是 一 个 55000x10 
的 Tensor, W 3-4 Aan, 这 里 是 对 10 个 种 类 进行 了 one-hot 编码 ，Label 是 一 个 10 维 的 
Ale, 只 有 1 个 值 为 1， 其余 为 0。 比如 数字 0， 对 应 的 Label 就 是 [1,0,0,0,0,0,0,0,0,0]， 数 
= 5 对 应 的 Label 就 是 [0,0,0,0,0,1,0,0,0,0]， 数 字 n 就 代表 对 应 位 置 的 值 为 1。 
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784 


55000 
3-3. MNIST 训练 数据 的 特征 


55000 
图 3-4 MNIST 训练 数据 的 Label 


准备 好 数据 后 , 接 下 来 就 要 设计 算法 了 , 这 里 使 用 一 个 叫 作 Softmax Regression 的 算 
法 训练 手写 数字 识别 的 分 类 模型 。 我 们 的 数字 都 是 0~ 9 之 间 的 ， 所 以 一 共有 10 个 类 别 ， 
当 我 们 的 模型 对 一 张 图片 进 行 预测 时 ,Softmax Regression 会 对 每 一 种 类 别 估 算 一 个 概率 : 
比如 预测 是 数字 3 的 概率 为 80%， 是 数字 5 的 概率 为 5%， 最 后 取 概 率 最 大 的 那个 数字 作 
为 模型 的 输出 结果 。 


当 我 们 处 理 多 分 类 任务 时 , 通常 需要 使 用 Softmax Regression 模型 。 即 使 后 面 章 节 的 
卷 积 神经 网 络 或 者 循环 神经 网 络 , 如 果 是 分 类 模型 ,最 后 一 层 也 同样 是 Softmax Regression. 
它 的 工作 原理 很 简单 , 将 可 以 判定 为 某 类 的 特征 相 加 , 然后 将 这 些 特 征 转 化 为 判定 是 这 一 
类 的 概率 。 上 述 特征 可 以 通过 一 些 简 单 的 方法 得 到 , 比如 对 所 有 像素 求 一 个 加 权 和 ， 而 权 
重 是 模型 根据 数据 自动 学 习 、 训 练 出 来 的 。 比 如 某 个 像素 的 灰 度 值 大 代表 很 可 能 是 数字 n 
时 ， 这 个 像素 的 权重 就 很 大 ; 反之 ， 如 果 某 个 像素 的 灰 度 值 大 代表 不 太 可 能 是 效 字 mn 时， 
这 个 像素 的 权重 就 可 能 是 负 的 。 图 3-5 所 示 为 这 样 的 一 些 特征 , 其 中 明亮 区 域 代表 负 的 权 
重 ， 灰 上 暗 区 域 代表 正 的 权重 。 


) T 
0 1 Zs 4 
5 6 7 8 S 


3-5 不同 数字 可 能 对 应 的 特征 权重 
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我 们 可 以 将 这 些 特征 写成 如 下 公式 : i 代表 第 i 类, j 代表 一 张 图 片 的 第 j MRR bi 
Æ bias, 顾名思义 就 是 这 个 数据 本 身 的 一 些 倾 向 ,比如 大 部 分 数字 都 是 0， 那么 0 的 特征 
对 应 的 bias 就 会 很 大 。 
feature; = > Wi jx; + bi 


接 下 来 对 所 有 特征 计算 softmax， 结 果 如 下 。 简 单 说 就 是 都 计算 一 个 exp 函数 ， 然 后 
再 进行 标准 化 ( 让 所 有 类 别 输 出 的 概率 值 和 为 1 )。 

softmax(x) = normalize(exp(x)) 

其 中 判定 为 第 i 类 的 概率 就 可 由 下 面 的 公式 得 到 。 

exp(x;) 
dj exp(x;) 

我 们 先 对 各 个 类 的 特征 求 exp 函数 ， 然 后 对 它们 标准 化 ， 使 得 和 为 1， 特 征 的 值 越 大 
的 类 ， 最 后 输出 的 概率 也 越 大 ; 反之 ,特征 的 值 越 小 的 类 , 输出 的 概率 也 越 小 。 最 后 的 标 
惟 化 操作 保证 所 有 的 概率 没有 为 0 或 者 为 负数 的 , 同时 它们 的 和 为 1, 也 满足 了 概率 的 分 
布 。 如 果 将 整个 计算 过 程 可 视 化 ， 结 果 如 图 3-6 所 示 。 


+| — — @%) 
—_ 
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图 3-6 Softmax Regression 的 流程 


接着 ， 如 果 将 图 3-6 中 的 连 线 变 成 公式 ， 结 果 如 图 3-7 所 示 ， 最 后 将 元 素 相 乘 变 成 矩 
阵 乘 法 ， 结 采 如 图 3-8 所 示 。 


softmax(x); = 


XeUu1joS 
| 
© 





Yı Wi amy + Wi202 + Wi 333 + bı 
Y2 | = softmax Wa, 12} + Wo ,2 T2 + W2 323 sie bo 
Y3 Waati + W283 + Wa323 + b3 


3-7 Softmax Regression 元 素 乘 法 示例 


49 A 
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yi Wri Wi2 Wi3| Ti bi 
Y2| = softmax | | W21 W22 Wo2,3|.|722| + | bo 
Y3 W3, Ws2 W333] |ī3 b3 


图 3-8 Softmax Regression 矩阵 乘法 示例 
上 述 和 矩阵 运算 表达 写成 公式 的 话 ， 可 以 用 下 面 这 样 简 洁 的 一 行 表达 。 
y = softmax(Wx + b) 


接 下 来 就 使 用 TensorFlow 实现 一 个 Softmax Regression。 其 实在 Python 中 ， 当 还 没 
有 TensorFlow 时 ， 通 常 使 用 NumPy 做 密集 的 运算 操作 。 因 为 NumPy 是 使 用 C 和 一 部 分 
fortran 语言 编写 的 ， 并 且 调 用 openblas 、mkl 等 矩阵 运算 库 ， 因 此 效率 很 高 。 其 中 每 一 个 
运算 操作 的 结果 都 要 返回 到 Python 中 ， 但 不 同 语言 之 间 传 输 数据 可 能 会 市 来 比较 大 的 延 
U8. TensorFlow 同样 也 把 密集 的 复杂 运算 搬 到 Python 外 执行 ,不 过 做 得 更 彻底 。TensorFlow 
通过 定义 一 个 计算 图 将 所 有 的 运算 操作 全 部 运行 在 Python 外 面 ， 比 如 通过 C++ 运行 在 
CPU 上 或 者 通过 CUDA 运行 在 GPU 上 ， 而 不 需要 每 次 把 运算 完 的 数据 传 回 Python。 


首先 载 入 TensorFlow 库 , 并 创建 一 个 新 的 InteractiveSession, 使 用 这 个 命令 会 将 这 个 
session 注册 为 默认 的 session， 之 后 的 运算 也 默认 跑 在 这 个 session 里 ， 不 同 session 之 间 
的 数据 和 运算 应 该 都 是 相互 独立 的 。 接 下 来 创建 一 个 Placeholder， 即 输入 数据 的 地 方 。 
Placeholder 的 第 一 个 参数 是 数据 类 型 ， 第 二 个 参数 [None，784] 代 表 tensor 的 shape， 也 就 
是 数据 的 尺寸 ,这 里 None 代表 不 限 条 数 的 输入 ,784 代表 每 条 输入 是 一 个 784 维 的 向 量 。 


import tensorflow as tf 
sess = tf.InteractiveSession() 


x = tf.placeholder(tf.float32, [None, 784]) 


接 下 来 要 给 Softmax Regression 模型 中 的 weights 和 biases 创建 Variable WR, 第 1 
章 中 提 到 Variable 是 用 来 存储 模型 参数 的 ,不同 于 存储 数据 的 tensor 一 旦 使 用 挥 就 会 消失 ， 
Variable 在 模型 训练 迭代 中 是 持久 化 的 (比如 一 直 存 放 在 显存 中 )， 它 可 以 长 期 存在 并 且 
在 每 轮 迭 代 中 被 更 新 。 我 们 把 weights 和 biases 全 部 初始 化 为 0， 因 为 模型 训练 时 会 自动 
学 习 合适 的 值 ， 所 以 对 这 个 简单 模型 来 说 初始 值 不 太 重 要 。 PEN RANMA. TE 
网 络 或 者 比较 深 的 全 连接 网 络 , 初始 化 的 方法 就 比较 重要 , 甚至 可 以 说 至 关 重 要 。 注意 这 
里 W 的 shape 是 [784,10]，784 是 特征 的 维 数 ， 而 后 面 的 10 代表 有 10 类 ， 因 为 Label 在 
one-hot 编码 后 是 10 维 的 向 量 。 
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W = tf.Variable(tf.zeros([784, 10])) 
b = tf.Variable(tf.zeros([10])) 


接 下 来 就 要 实现 Softmax Regression 算法 ， 我 们 回忆 一 下 上 面 提 到 的 公式 : 
y = softmax(Wx + b)。 改 写成 TensorFlow 的 语言 就 是 下 面 这 行 代码 。 


y = tf.nn.softmax(tf.matmul(x, W) + b) 


Softmax 是 ttnn 下 面 的 一 个 函数 ， 而 tfn 则 包含 了 大 量 神经 网 络 的 组 件 ，tfmatmul 
是 TensorFlow 中 的 矩阵 乘法 函数 ,我 们 使 用 一 行 简单 的 代码 就 定义 了 Softmax Regression, 
语法 和 直接 写 数学 公式 很 像 。 然 而 TensorFlow 最 厉害 的 地 方 还 不 是 定义 公式 ， 而 是 将 
forward 和 backward 的 内 容 都 目 动 实现 (无论 CPU 或 是 GPU 上 ), 只 要 接 下 来 定义 好 1oss， 
训练 时 将 会 目 动 求 导 并 进行 梯度 下 降 ， 完 成 对 Softmax Regression 模型 参数 的 自动 学 习 。 


为 了 训练 模型 ,我们 需要 定义 一 个 loss function 来 描述 模型 对 问题 的 分 类 精度 。Loss 
越 小 , 代表 模型 的 分 类 结果 与 真实 值 的 偏差 越 小 , 也 就 是 说 模型 越 精确 。 我 们 一 开始 给 
型 填充 了 全 零 的 参数 ， 这 样 模型 会 有 一 个 初始 的 loss， 而 训练 的 目的 是 不 断 将 这 个 loss 
减 小 ,直到 达到 一 个 全 局 最 优 或 者 局 部 最 优 解 。 对 多 分 类 问题 ， 通 常 使 用 cross-entropy 
作为 loss function。Cross-entropy 最 早出 自信 息 论 (Information Theory ) 中 的 信息 (与 
压缩 比率 等 有 关 )， 然 后 被 用 到 很 多 地 方 ， 包 括 通信 、 纠 错 码 、 博 弈 论 、 机 器 学 习 等 。 
Cross-entropy 的 定义 如 下 ， 其 中 是 预测 的 概率 分 布 ，y' 是 真实 的 概率 分 布 ( 即 Label 的 
one-hot 编码 )， 通 常 可 以 用 它 来 判断 模型 对 真实 概率 分 布 估计 的 准确 程度 。 


Hy,(y) = 一 » y'ilog(y;) 


在 TensorFlow 中 定义 cross-entropy 也 很 容易 ， 代 码 如 下 。 


y_ = tf.placeholder(tf.float32, [None, 10]) 
cross entropy = tf.reduce_mean(-tf.reduce sum(y_ * tf.log(y), 


reduction_indices=[1])) 


先 定义 一 个 placeholder, #7 ABSA label ， 用 来 计算 cross-entropy。 这 里 的 
y. * tlog(y) 也 就 是 前 面 公 式 中 的 y'ilog(yY;) ， 人 给 reduce_sum 也 就 是 求 和 的 >， 而 
tfreduce _ mean 则 用 来 对 每 个 batch 数据 结果 求 均值 。 


现在 我 们 有 了 算法 Softmax Regression 的 定义 ,又 有 了 损失 函数 cross-entropy 的 定义 ， 
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只 需要 再 定义 一 个 优化 算法 即 可 开始 训练 。 我 们 采用 常见 的 随机 梯度 下 降 SGD( Stochastic 
Gradient Descent )。 定义 好 优化 算法 后 ,TensorFlow 就 可 以 根据 我 们 定义 的 整个 计算 图 (我 
们 前 面 定义 的 各 个 公式 已 经 自动 构成 了 计算 图 ) 自动 求 导 ， 并 根据 反 向 传播 (Back 
Propagation ) 算法 进行 训练 ， 在 每 一 轮 和 迭代 时 更 新 参数 来 减 小 loss。 在 后 台 TensorFlow 会 
目 动 添加 许多 运算 操作 ( Operation ) 来 实现 刚才 提 到 的 反 向 传播 和 梯度 下 降 ,， 而 给 我 们 提 
供 的 误 是 一 个 封装 好 的 优化 器 ， 只 需要 每 轮 和 迭代 时 feed 数据 给 它 束 好 。 我 们 直接 调用 
tftrain.GradientDescentOptimizer， 并 设置 学 习 速率 为 0.5， 优 化 目标 设 定 为 cross-entropy， 
得 到 进行 训练 的 操作 train_step。 当 然 ，TensorFlow 中 也 有 很 多 其 他 的 优化 器 ， 使 用 起 来 
也 非常 方便 ， 只 需要 修改 函数 名 即 可 。 


train step = tf.train.GradientDescentOptimizer(8.5).minimize(cross entropy) 


下 一 步 使 用 TensorFlow 的 全 局 参数 初始 化 器 tf.global variables_initializer， 并 直接 执 
行 它 的 run 方法 。 


tf.global variables initializer().run() 


最 后 一 步 ， 我 们 开始 迭代 地 执行 训练 操作 train_step。 这 里 每 次 都 随机 从 训练 集中 抽 
BY 100 条 样本 构成 一 个 mini-batch， 并 feed 给 placeholder， 然 后 调用 train_step 对 这 些 样 
本 进行 训练 。 使 用 一 小 部 分 样本 进行 训练 称 为 随机 梯度 下 降 , 与 每 次 使 用 全 部 样本 的 传统 
的 梯度 下 降 对 应 。 如 果 每 次 训练 都 使 用 全 部 样本 , 计算 量 太 大 , 有 时 也 不容 易 跳 出 局 部 最 
Ro 因此 ,对 于 大 部 分 机 器 学 习 问 题 , 我 们 都 只 使 用 一 小 部 分 数据 进行 随机 梯度 下 降 ， 这 
种 做 法 绝 大 多 数 时 候 会 比 全 样本 训练 的 收敛 速度 快 很 多 。 
for i in range(10@@): 

batch_xs, batch_ys = mises trainee parch(oe) 

train_step.run({x: batch XSA y n batch_ys}) 


现在 我 们 已 经 完成 了 训练 ， 接 下 来 就 可 以 对 模型 的 准确 率 进行 J 验证 。 下 面 代 码 中 的 
tfargmax 是 从 一 个 tensor 中 寻找 最 大 值 的 序号 ，tf.argmax(y，1) 就 是 求 各 个 预测 的 数字 中 
概率 最 大 的 那 一 个 ， 而 ttargmax(y_， che ca ce wie 而 tf.equal 方法 则 用 
来 判断 预测 的 数字 类 别 是 否 就 是 正确 的 类 别 ， 返回 计算 分 类 是 否 正确 的 操作 


correct_predition, 


correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1)) 
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我 们 统计 全 部 样本 预测 的 accuracy， 这 里 需要 先 用 tf.cast 将 之 前 correct_prediction 输 
出 的 bool 值 转换 为 foat32， 再 求 平 均 。 


accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32)) 

我 们 将 测试 数据 的 特征 和 Label 输入 评测 流程 accuracy， 计算 模 型 在 测试 集 上 的 准确 
K, 由 将 结果 打印 出 来 。 使 用 Softmax Regression 对 MNIST 数据 进行 分 类 识别 ， 在 测试 
集 上 平均 准确 率 可 达 92% 左 右 。 


print(accuracy.eval({x: mnist.test.images, y_: mnist.test.labels}) ) 


通过 上 面 的 这 个 简单 例子 ， 我 们 使 用 TensorFlow 实现 了 一 个 简单 的 机 器 学 习 算法 
Softmax Regression， 这 可 以 算 作 是 一 个 没有 隐 含 层 的 最 浅 的 神经 网 络 。 我 们 来 回忆 一 下 
整个 流程 ， 我 们 做 的 事情 可 以 分 为 4 个 部 分 。 


(1) 定义 算法 公式 ， 也 融 是 神经 网 络 forward 时 的 计算 。 
(2) 定义 loss, HERET, FTE MLAS losso 
(3) 迭代 地 对 数据 进行 训练 。 

(4) 在 测试 集 或 验证 集 上 对 准确 率 进行 评测 。 


这 几 个 步骤 是 我 们 使 用 TensorFlow 进行 算法 设计 、 训 练 的 核心 步骤 ， 也 将 会 贯穿 之 
后 其 他 类 型 神经 网 络 的 章节 。 需 要 注意 的 是 ，TensorFlow 和 Spark 类 似 , 我 们 定义 的 各 个 
公式 其 实 只 是 Computation Graph， 在 执行 这 行 代码 时 ， 计 算 还 没有 实际 发 生 ， 只 有 等 调 
用 run 方法 ， 并 feed 数据 时 计算 才 真 正 执 行 。 比 如 cross_entropy、train_step、accuracy 等 


都 是 计算 图 中 的 证 点 , 而 并 不 是 数据 结果 , 我 可 以 通过 调用 run 方法 执行 这 些 节点 或 者 说 
运算 操作 来 获取 结果 。 


我 们 再 来 看 看 Softmax Regression 达到 的 效果 , 准确 率 为 92%, 虽然 是 一 个 还 不 错 的 
数字 , 但 是 还 达 不 到 实用 的 程度 。 手写 数字 的 识别 的 主要 应 用 场景 是 识别 银行 支票 ， 如果 
准确 率 不 够 高 ， 可 能 会 引起 严重 的 后 果 。 后 面 我 们 将 讲解 使 用 多 层 感知 机 和 卷 积 网 络 , 来 
解决 MNIST 手写 数字 识别 问题 的 方法 。 BRL, MNIST 数字 识别 也 算是 卷 积 神经 网 络 的 
首 个 经 典 应 用 ，LeCun 的 LeNet5 4 20 世纪 90 年 代 就 已 经 提出 ， 而 且 可 以 达到 99% 的 准 
aie, 可 以 说 是 领先 时 代 的 重大 突破 。 可惜 后 面 因 为 计算 能 力 制约 , 卷 积 神经 网 络 的 研究 
一 直 没 有 太 大 突破 ， 神 经 网 络 也 一 度 被 SVM 等 超越 而 陷入 低谷 。 在 20 世纪 初 的 很 多 年 
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里 , 神经 网 络 几 乎 被 大 家 遗忘 , 相关 研究 一 直 不 受 重 视 , 这 一 段 是 深度 学 习 的 一 次 冰期 ( 神 
经 网 络 的 研究 一 共有 三 次 大 起 大 落 )。2006 £, Hinton 等 人 提出 逐 层 预 训练 来 初始 化 权重 
的 方法 及 利用 多 层 RBM 堆 秋 的 神经 网 络 DBN， 神 经 网 络 才 逐渐 重 回 大 家 视野 。Hinton 
揭示 了 神经 网 络 的 最 大 价值 在 于 对 特征 的 目 动 提 取 和 抽象 , 它 免 去 了 人 工 提取 特征 的 烦琐 ， 
可 以 自动 找 出 复杂 且 有 效 的 高 阶 特征 。 这 一 点 类 似 人 的 学 习 过 程 , 先 理解 简单 概念 , 再 未 
渐 递 进 到 复杂 概念 , 神经 网 络 每 加 深 一 层 , 可 以 提取 的 特征 就 更 抽象 。 随 着 2012 年 Hinton 
学 生 的 研究 成 果 AlexNet 以 巨大 优势 摘 得 了 当年 ImageNet ILSVRC 比赛 的 第 一 和 名， 深度 
学 习 的 热潮 被 再 次 点 燃 。ImageNet 是 一 个 非常 著名 的 图 片 数 据 集 ， 大 致 有 几 百 万 张 图 片 
和 1000 类 ( 大 部 分 是 动物 , 约 有 几 百 类 的 动物 )。 官 方 会 每 年 举办 一 次 大 型 的 比赛 , 有 
片 分 类 、 目 标 位 置 检 测 、 视 频 检测 、 图 像 分 割 等 任务 。 在 此 之 前 , 参赛 读物 都 是 做 特征 工 
程 ， 然 后 使 用 SVM 等 模型 进行 分 类 。 而 AlexNet 夺冠 后 ， 每 一 年 ImageNet ILSVRC 的 
冠军 都 是 依靠 深度 学 习 、 卷 积 神经 网 络 ， 而 且 趋势 是 层 数 越 深 ， 效 果 越 好 。2015 年 ， 微 
软 研究 院 提 出 的 ResNet 甚 至 达到 惊人 的 152 层 深 ,并 在 分 类 准确 率 上 有 了 突破 性 的 进展 。 
至 此 , 深度 学 习 在 复杂 机 器 学 习 任 务 上 的 巨大 优势 正式 确立 , 现在 基本 在 任何 问题 上 , F 
细 设 计 的 神经 网 络 都 可 以 取得 比 其 他 算法 更 好 的 准确 率 和 泛 化 性 ,前 提 是 有 足够 多 的 数据 。 

接 下 来 的 章节 ， 我们 会 继续 使 用 其 他 算法 在 MNIST 数据 集 上 进行 训练 ， SRE, 现 
在 的 Softmax Regression 加 入 隐 舍 层 变 成 一 个 正统 的 神经 网 络 后 , 峙 结合 Dropout、Adagrad、 
ReLU 等 技术 准确 率 就 可 以 达到 98%。 引 入 卷 积 层 、 池 化 层 后 ,也 可 以 达到 99% 的 正确 率 。 
而 目前 基于 卷 积 神经 网 络 的 state-of-the-art 的 方法 已 经 可 以 达到 99.8% 的 正确 率 。 
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4.1 ”上 自 编码 器 简介 


传统 机 器 学 习 任务 很 大 程度 上 依赖 于 好 的 特征 工程 ,比如 对 数值 型 、 日 期 时 间 型 、 种 
类 型 等 特征 的 提取 。 特征 工程 往往 是 非常 耗 时 耗 力 的 , 在 图 像 、 语 音 和 视频 中 提取 到 有 效 
的 特征 就 更 难 了 , 工程 师 必 须 在 这 些 领 域 有 非常 深入 的 理解 , 并 且 使 用 专业 算法 提取 这 些 
数据 的 特征 。 深度 学 习 则 可 以 解决 人 工 难以 提取 有 效 特征 的 问题 , 它 可 以 大 大 缓解 机 器 学 
习 模 型 对 特征 工程 的 依赖 。 深 度 学 习 在 早期 一 度 被 认为 是 一 种 无 监督 的 特征 学 习 
( Unsupervised Feature Learning )， 模 仿 了 人 脑 的 对 特征 逐 层 抽象 提取 的 过 程 。 这 其 中 有 
两 点 很 重要 :一 是 无 监督 学 习 , 即 我 们 不 需要 标注 数据 就 可 以 对 数据 进行 一 定 程度 的 学 习 ， 
这 种 学 习 是 对 数据 内 容 的 组 织 形式 的 学 习 , 提取 的 是 频繁 出 现 的 特征 ; 二 是 逐 层 抽象 , 特 
征 是 需要 不 断 抽象 的 , 就 像 人 总 是 从 简单 基础 的 概念 开始 学 习 , 再 到 复杂 的 概念 。 学 生 们 
要 从 加 减 乘除 开始 学 起 , 再 到 简单 函数 ,然后 到 微 积 分 ,深度 学 习 也 是 一 样 , 它 从 简单 的 
微观 的 特征 开始 ， 不 断 抽象 特征 的 层级 ， 逐 渐 往 复杂 的 宏观 特征 转变 。 


例如 在 图 像 识别 问题 中 , 假定 我 们 有 许多 汽车 的 图 片 , 要 如 何 判 定 这 些 图 片 是 汽车 呢 ? 
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如 果 我 们 从 像素 级 特征 开始 进行 训练 分 类 器 , 那么 绝 大 多 数 算法 很 难 有 效 地 工作 。 如 果 我 
们 提取 出 高 阶 的 特征 ,比如 汽车 的 车 轮 、 汽 车 的 车 窗 、 汽 车 的 车 身 ， 那么 使 用 这 些 高 阶 特 
征 便 可 以 非常 准确 地 对 图 片 进行 分 类 , 这 就 是 高 阶 特征 的 效果 。 不 过 任何 高 阶 特征 都 是 由 
底层 特征 组 合 而 成 的 ,比如 车 轮 由 橡胶 轮胎 、 车 轴 、 轮 辐 等 组 成 。 而 其 中 每 一 个 组 件 都 是 
由 更 小 单位 的 特征 组 合 而 成 的 , 比如 橡胶 轮胎 由 许多 黑色 的 同心 圆 组 成 , 而 这 些 同心 圆 也 
都 由 许多 圆 弧 曲线 组 成 , 圆 弧 曲 线 都 由 像素 组 成 。 我 们 将 前 面 的 过 程 逆 过 来 , 将 一 张 图 片 
的 原始 像素 慢 慢 抽象 ， 从 像素 组 成 点 、 线 ， 再 将 点 、 线 组 合成 小 零件 ， 再 将 小 零件 组 成 车 
轮 、 车 窗 、 车 身 等 高 阶 特别 ， 这 便 是 深度 学 习 在 训练 过 程 中 所 做 的 特征 学 习 。 


早年 由 学 者 们 研究 稀 朴 编码 (Sparse Coding) 时 ， 他 们 收集 了 大 量 黑白 风景 照 ， 并 
从 中 提取 了 许多 16 像素 x16 像素 的 图 像 碎 片 。 他 们 发 现 几 乎 所 有 的 图 像 碎 片 都 可 以 由 64 
种 正 交 的 边 组 合 得 到 , 如 图 4-1 所 示 , 并 且 组 合 出 一 张 图 像 碎 片 需要 的 边 的 数量 是 很 少 的 ， 

- 即 稀 疲 的 。 学 者 同时 发 现 声音 也 存在 这 种 情况 ， 他 们 从 大 量 的 未 标注 音频 中 发 现 了 20 种 
基本 结构 , 绝 大 多 数 声 音 可 以 由 这 些 基本 结构 线性 组 合 得 到 。 这 其 实 误 是 特征 的 黎 朴 表达 ， 
使 用 少量 的 基本 特征 组 合 拼装 得 到 更 高 层 抽 象 的 特征 。 通 常 我 们 也 需要 多 层 的 神经 网 络 ， 
对 每 一 层 神经 网 络 来 说 , 前 一 层 的 输出 都 是 未 加 工 的 像素 , 而 这 一 层 则 是 对 像素 进行 加 工 
组 织 成 更 高 阶 的 特征 〈《 即 前 面 提 到 的 将 边 组 合成 图 像 碎片 )。 





[0 
(feature representation) 


图 4-1 图 像 碎 片 可 由 少量 的 基本 结构 稀疏 表达 


我 们 来 看 一 下 实际 的 例子 。 假 如 我 们 有 许多 基本 结构 ,比如 指向 各 个 方向 的 边 ABR 
黑 块 等 , 如 图 4-2 所 示 , 我 们 可 以 通过 不 同方 式 组 合 出 不 同 的 高 阶 特征 ,并 最 终 拼 出 不 同 
的 目标 物体 。 这 些 基 本 结构 就 是 basis， 在 人 脸 识别 任务 中 ,我 们 可 以 使 用 它们 拼 出 人 脸 
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的 不 同 器 官 ， 比 如 具 子 、 跨 、 眼 睛 、 丑 毛 、 脸 颊 等 ， 这 些 器 官 又 可 以 向 上 一 层 拼 出 不 同样 
式 的 人 脸 ， 最 后 模型 通过 在 图 片 中 匹配 这 些 不 同样 式 的 人 脸 ( 即 高 阶 特征 ) 来 进行 识别 。 
同样 ，basis 可 以 拼 出 汽车 上 不 同 的 组 件 ， 最 终 拼 出 各 式 各 样 的 车 型 ， 也 可 以 拼 出 大 象 身 
体 的 不 同 部 位 ,最 后 组 成 各 种 尺寸 、 品 和 种、 颜色 的 大 象 ; 还 可 以 拼 出 椅子 的 使 、 座 、 靠 背 
等 ,最 后 组 成 不 同 款式 的 椅子 。 特 征 是 可 以 不 断 抽 象 转 为 高 一 级 的 特征 的 , 那 我 们 如 何 找 
到 这 些 基本 结构 , 然后 如 何 抽象 呢 ? 如 果 我 们 有 很 多 标注 的 数据 , 则 可 以 训练 一 个 深层 的 
伸 经 网 络 。 如 果 没 有 标注 的 数据 呢 ? 这 种 情况 下 , 我 们 依然 可 以 使 用 无 监督 的 自 编码 器 来 
提取 特征 。 目 编码 器 ( AutoEncoder )， 顾 名 思 义 ， 即 可 以 使 用 自身 的 高 阶 特征 编码 自己 。 
目 编码 锅 其 实 也 是 一 种 神经 网 络 , 它 的 输入 和 输出 是 一 致 的 , 它 借助 稀疏 编码 的 思想 , H 
标 是 使 用 稀 玖 的 一 些 高 阶 特征 重新 组 合 来 重 构 自己 。 因 此 , 它 的 特点 非常 明显 : 第 一 , 期 
下 和 输入 /和 输出 一 致 ; 第 二 ， 币 望 使 用 高 阶 特征 来 重 构 目 己 ， 而 不 只 是 复制 像素 点 。 


Features learned from training on different object classes. 


Elephants Chairs 





4-2 ”由 基本 结构 不 断 抽象 为 高 阶 特征 


Hinton 教授 在 Science 发 表 文 章 Reducing the dimensionality of data with i 
networks”， 讲 解 了 使 用 自 编码 器 对 数据 进行 降 维 的 方法 。Hinton 还 提出 了 基于 深度 信念 
网 络 (Deep Belief Networks“，DBN， 由 多 层 RBM 堆 又 而 成 ) 可 使 用 无 监督 的 逐 层 训练 
的 贫 心 算法 ,为 训练 很 深 的 网 络 提 供 了 一 个 可 行 方案 :我 们 可 能 很 难 直 接 训练 极 深 的 网 络 ， 
但 是 可 以 用 无 监督 的 逐 层 训 练 提取 特征 , 将 网 络 的 权重 初始 化 到 一 个 比较 好 的 位 置 , 辅助 
后 面 的 监督 训练 。 无 监督 的 逐 层 训 练 ， 其 思想 和 自 编 码 器 ( AutoEncoder ) 非常 相似 。 后 
者 的 目标 是 让 神经 网 络 的 输出 能 和 原始 输入 一 致 , 相当 于 学 习 一 个 恒等式 y =x, 如 图 4-3 
所 示 。 目 编码 器 的 输入 节点 和 输出 节点 的 数量 是 一 致 的 , 但 如 果 只 是 单纯 地 逐个 复制 输入 
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节点 则 没有 意义 , 像 前 面 提 到 的 , H AnA a BAD EN AEREA, 
所 以 我 们 可 以 加 入 几 种 限制 。 


(1) 如 果 限制 中 间 隐 含 层 节 点 的 数量 ， 比 如 让 中 间 隐 合 层 市 点 的 数量 小 于 输入 /输出 
节点 的 数量 ,就 相当 于 一 个 降 维 的 过 程 。 此 时 已 经 不 可 能 出 现 复制 所 有 节点 的 情况 ,因为 
中 间 节 点 数 小 于 输入 节点 数 , 那 只 能 学 习 数 据 中 最 重要 的 特征 复原 , 将 可 能 个 太 相 关 的 内 
容 去 除 。 此 时 ， 如 果 再 给 中 间 隐 含 层 的 权重 加 一 个 L1 的 正则 ， 则 可 以 根据 惩 昼 系数 控制 
RaW AMEE, 惩罚 系数 越 大 ,学 到 的 特征 组 合 越 稀 路 ,实际 使 用 ( 非 零 权重 ) 的 
特征 效 量 越 少 。 


(2) 如 果 给 数据 加 入 噪声 ， 那 么 就 是 Denoising AutoEncoder (去 品目 编码 器 )， 我 们 
将 从 噪声 中 学 习 出 数据 的 特征 。 同 样 , 我 们 也 不 可 能 完全 复制 节点 ， 完 全 复制 并 不 能 去 除 
我 们 添加 的 噪声 , 无 法 完全 复原 数据 。 所 以 唯 有 学 习 数 据 频繁 出 现 的 模式 和 结构 ,将 无 规 
律 的 噪声 略 去 ， 才 可 以 复原 效 据 。 


去 噪 自 编码 器 中 最 常 使 用 的 噪声 是 加 性 高 斯 噪声 ( Additive Gaussian Noise, AGN ), 
其 结构 如 图 4-3 所 示 。 当 然 也 可 以 使 用 Masking Noise， 即 有 随机 遮挡 的 噪声 ， 这 种 情况 
F, 图 像 中 的 一 部 分 像素 被 置 为 0, 模型 需要 从 其 他 像素 的 结构 推测 出 这 些 被 训 挡 的 像素 
是 什么 ， 因 此 模型 依然 需要 学 习 图 像 中 抽象 的 高 阶 特征 。 


3 NYANI P mer 
N s; WY j 
VYA DT) hw ol) 


(Go 
(+1) Layer L; Layer L; 


Layer Li 
图 4-3 ” 自 编码 器 结构 图 ， 学 习 目标 是 使 用 少量 高 阶 特征 重 构 输 入 
如 果 自 编码 器 的 隐 含 层 只 有 一 层 ， 那 么 其 原理 类 似 于 主 成 分 分 析 (PCA) Hinton $e 
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出 的 DBN 模型 有 多 个 隐 含 层 ， 每 个 隐 含 层 都 是 限制 性 玻 尔 效 曼 机 RBM (Restricted 
Boltzman Machine, 一 种 具有 特殊 连接 分 布 的 神经 网 络 )。DBN 训练 时 ， 需 要 先 对 每 两 层 
间 进 行 无 监督 的 预 训练 (pre-training )， 这 个 过 程 其 实 就 相当 于 一 个 多 层 的 自 编码 器 ， 可 
以 将 整个 网 络 的 权重 初始 化 到 一 个 理想 的 分 布 。 最 后 ， 通 过 反 向 传播 算法 调整 模型 权重 ， 
这 个 步骤 会 使 用 经 过 标注 的 信息 来 做 监督 性 的 分 类 训练 。 当 年 DBN 给 训练 深层 的 神经 网 
络 提 供 了 可 能 性 ， 它 能 解决 网 络 过 深 础 来 的 梯度 弥散 ( Gradient Vanishment ) 问题 ， 让 
训练 变 得 容易 。 简单 地 说 , Hinton 的 思路 就 是 先 用 自 编 码 器 的 方法 进行 无 监督 的 预 训练 ， 
提取 特征 并 初始 化 权重 , 然后 使 用 标注 信息 进行 监督 式 的 训练 。 当 然 自 编码 器 的 作用 不 仅 
局 限于 给 监督 训练 做 预 训 练 , 直接 使 用 目 编 码 器 进行 特征 提取 和 分 析 也 是 可 以 的 。 现 实 中 
数据 最 多 的 还 是 未 标注 的 数据 ， 因 此 上 自 编码 器 拥有 许多 用 武之 地 。 


4.2 TensorFlow 实现 自 编 码 器 


下 面 我 们 束 开 始 实现 最 具 代 表 性 的 去 品目 编码 器 。 去 噪 自 编码 器 的 使 用 范围 最 广 也 最 
通用 。 而 其 他 几 种 目 tae 读者 可 以 对 代码 加 以 修改 目 行 实现 , 其 中 无 噪声 的 自 编码 器 
只 需要 去 掉 噪 声 ， 并 保证 隐 含 层 节点 小 于 输入 层 节 点 ; Masking Noise 的 自 编 码 器 只 需要 
将 高 斯 噪声 改 为 随机 遮挡 噪声 ; Variational AutoEncoder ( VAE ) 则 相对 复杂 ，VAE 对 中 
间 市 点 的 分 布 有 强 假设 , 拥有 额外 的 损失 项 , 且 会 使 用 特殊 的 SGVB (Stochastic Gradient 
Variational Bayes ) 算法 进行 训练 。 目 前 VAE 还 在 生成 模型 中 发 挥 了 很 大 的 作用 。 


这 里 我 们 依然 是 先导 入 常用 库 NumPy， 还 有 Scikit-leam 中 的 preprocessing 模块 ， 这 
是 一 个 对 数据 进行 预 处 理 的 常用 模块 , 之 后 我 们 会 使 用 其 中 的 数据 标准 化 功能 。 同时 本 节 
依然 使 用 MNIST 数据 集 ， 因 此 也 导入 TensorFlow 中 MNIST 数据 的 加 载 模块 。 本 节 代 码 
主要 来 自 TensorFlow 的 开源 实现 >. 


import numpy as np 
import sklearn.preprocessing as prep 
import tensorflow as tf 


from tensorflow.examples.tutorials.mnist import input_data 


我 们 的 自 编码 器 中 会 使 用 到 一 种 参数 初始 化 方法 xavier initialization”, 需要 先 定义 好 
Eo Xavier 初始 化 器 在 Caffe 的 早期 版 本 中 被 频繁 使 用 ， 它 的 特点 是 会 根据 某 一 层 网 络 的 
输入 、 输 出 节点 数量 自动 调整 最 合适 的 分 布 。Xaiver Glorot 和 深度 学 习 三 巨头 之 一 的 
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Yoshua Bengio 在 一 篇 论文 中 指出 ， 如 果 深 度 学 习 模型 的 权重 初始 化 得 太 小 ， 那 信号 将 在 
每 层 间 传 递 时 逐渐 缩小 而 难以 产生 作用 , 但 如 果 权 重 初始 化 得 太 大 , 那 信 eden 


MOH SAMA. Tl Xaiver 初始 化 器 做 的 事情 就 是 让 权重 被 初始 化 得 不 
大 不 小 ,正好 合适 。 从 数学 的 角度 分 析 ,Xavier 就 是 让 权重 满足 0 均值 ,同时 方差 为 一 2 一 ， 


eee Dave 分 布 。 如 下 代码 所 示 ， 我 们 通过 tfrandom_uniform 创建 了 

ia Fara ) 东 6 围 内 的 均匀 分 布 ， 而 它 的 方差 根据 公式 D(x) = (max - 
min)?/12 刚 好 等 于 -一 2 一。 因此 ， 这 里 实现 的 就 是 标准 的 均匀 分 布 的 Xaiver 初始 化 器 ， 
其 中 fan_in 是 输入 节点 的 数量 ，fan_out 是 输出 节点 的 数量 。 














def xavier init(fan in, fan out, constant = 1): 
low = -constant * np.sqrt(6.6 / (fan in + fan_out)) 
high = constant * np.sqrt(6.@ / (fan in + fan_out)) 
return tf.random_uniform((fan_in, fan_out), 
minval = low, maxval = high, 


dtype = tf.float32) 


下 面 我 们 就 开始 定义 一 个 去 品目 编码 的 class, 方便 以 后 使 用 。 这 个 类 会 包含 一 个 构 
建 函 数 _init_(0, 还 有 一 些 常用 的 成 员 函 数 ,因此 会 比较 长 , 下 面 会 分 为 几 个 代码 段 讲解 ， 
我 们 和 爷 来 看 构建 函数 。 


_ init ”函数 包含 这 样 几 个 输入 : n_input ( 输入 变量 数 )、n_hidden ( 隐 含 层 节 点 数 )、 
transfer_function ( 隐 含 层 激 活 函 数 , 默认 为 softplus )、optimizer( 优化 器 , 默认 为 Adam )、 
scale ( 高 斯 噪声 系数 ， 默 认为 0.1 )。 其 中 ，class 内 的 scale 参数 做 成 了 一 个 placeholder, 
参数 初始 化 则 使 用 了 接 下 来 定义 的 initialize weights 函数 。 这 里 需要 注意 的 是 , 我 们 只 使 
用 了 一 个 隐 含 县， 有 需要 的 读者 可 以 自行 尝试 多 添加 几 个 隐 含 层 。 


class AdditiveGaussianNoiseAutoencoder (object): 
def init__(self, n_input, n_hidden, transfer_function=tf.nn.softplus, 
optimizer = tf.train.AdamOptimizer(), scale=0.1): 
self.n_input = n_input 
self.n_hidden = n_hidden 
self.transfer = transfer_function 
self.scale = tf.placeholder(tf.float32) 


self.training scale = scale 
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network_weights = self. initialize weights() 


self.weights = network_weights 


接 下 来 开始 定义 网 络 结构 ， 我 们 为 输入 x 创建 一 个 维度 为 n input 的 placeholder, %3 
后 建立 一 个 能 提取 特征 的 隐 含 层 ， 我 们 先 将 输入 x 加 上 噪声 ， 即 selfx+scalex 
tf.random_normal((n_input, ))， 然 后 用 tfmatmul 将 加 了 噪声 的 输入 与 隐 含 层 的 权重 wl 
R, HEH tft.add 加 上 隐 伟 层 的 偏 置 bl ， 最 后 使 用 selftransfer 对 结果 进行 激活 函数 处 
理 。 经 过 隐 含 层 后 ， 我 们 需要 在 输出 层 进行 数据 复原 、 重 建 操作 ( 即 建立 reconstruction 
层 )， 这 里 我 们 就 不 需要 激活 函数 了 ， 直 接 将 隐 含 层 的 输出 selfhidden 乘 上 输出 层 的 权重 
w2， 再 加 上 输出 层 的 偏 置 b2 即 可 。 


self.x = tf.placeholder(tf.float32, [None, self.n_input]) 
self.hidden = self.transfer(tf.add(tf.matmul ( 
self.x + scale * tf.random_normal((n_input, )), 
self.weights[‘'wi']), self.weights[‘b1'])) 
self.reconstruction = tf.add(tf.matmul(self.hidden, 
self.weights[‘'w2']), self.weights[ 'b2']) 


接 下 来 定义 目 编 码 咒 的 损失 函数 , 这 里 直接 使 用 平方 误差 ( Squared Error MEX cost, 
即 用 tfisubtract 计算 输出 〈selfreconstruction ) 与 输入 ( self.x ) 之 差 ， 再 使 用 thpow 求 差 
的 平方 ， 最 后 使 用 tfreduce_sum 求 和 即 可 得 到 平方 误差 。 再 定义 训练 操作 为 优化 器 
self.optimizer 对 损失 self.cost 进行 优化 。 最 后 创建 Session, 并 初始 化 自 编码 器 的 全 部 模型 
参数 。 

self.cost = 0.5 * tf.reduce sum(tf.pow(tf.subtract( 


self.reconstruction, self.x), 2.0)) 


self.optimizer = optimizer.minimize(self.cost) 


init = tf.global variables initializer() 
self.sess = tf.Session() 


self.sess.run(init) 


下 面 来 看 一 下 参数 初始 化 国 数 initialize weights, 先 创建 一 个 名 为 all weights 的 字典 
dict， 然 后 将 wl, bl, w2, b2 全 部 存 入 其 中 ， 最 后 返回 all_ weights。 其 中 wl 需要 使 用 
前 面 定义 的 xavier_init 函数 初始 化 ,我 们 直接 传 入 输入 节点 数 和 隐 含 层 节点 数 ,然后 xavier 
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即 可 返回 一 个 比较 适合 于 softplus 等 激活 函数 的 权重 初始 分 布 ， 而 偏 置 bl 只 需要 使 用 
tf.zeros 全 部 置 为 0 即 可 。 对 于 输出 层 selfreconstruction， 因 为 没有 使 用 激活 函数 ,这 里 将 
w2, b2 全 部 初始 化 为 0 即 可 。 


def initialize weights(self): 
all weights = dict() 
all weights['w1'] = tf.Variable(xavier_init(self.n_input, 
self.n_hidden) ) 
tf.Variable(tf.zeros([self.n_hidden], 
dtype = tf.float32)) 
all weights['w2'] = tf.Variable(tf.zeros([self.n_hidden, 


all_weights['b1i' | 


self.n_input], dtype = tf.float32)) 
tf.Variable(tf.zeros([self.n_input], 
dtype = tf.float32)) 


all _weights['b2' | 


return all weights 


我 们 定义 计算 损失 cost 及 执行 一 步 训 练 的 函数 partial_fit。 函数 里 只 需 让 Session 执行 
两 个 计算 图 的 节点 ， 分 别 是 损失 cost 和 训练 过 程 optimizer， 输 入 的 feed_dict 包括 输入 数 
据 x， 以 及 噪声 的 系数 scale。 函 数 partial fit 做 的 就 是 用 一 个 batch 数据 进行 训练 并 返回 
当前 的 损失 cost。 


def partial fit(self, X): 
cost, opt = self.sess.run((self.cost, self.optimizer), 
feed dict = {self.x: X, self.scale: self.training_scale}) 


return cost 


我 们 也 需要 一 个 只 求 损失 cost 的 函数 calc_total_cost, 这 里 就 只 让 Session 执行 一 个 计 
算 图 节点 self.cost, 传 入 的 参数 和 前 面 的 partial_fit 一 致 。 这 个 函数 是 在 目 编码 器 训练 完毕 
后 ,在 测试 集 上 对 模型 性 能 进行 评测 时 会 用 到 的 , 它 不 会 像 partial_fit 那样 触发 训练 操作 。 

def calc total cost(self, X): | 


return self.sess.run(self.cost, feed dict = {self.x: X, 


self.scale: self.training_ scale 


H 


我 们 还 定义 了 transform 函数 ， 它 返回 自 编码 器 隐 含 层 的 输出 结果 。 它 的 目的 是 提供 
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一 个 接口 来 获取 抽象 后 的 特征 , 目 编码 禹 的 隐 含 层 的 最 主要 功能 就 是 学 习 出 数据 中 的 高 阶 
特征 。 
def transform(self, X): 


return self.sess.run(self.hidden, feed dict = {self.x: X, 


self.scale: self.training scale 


}) 


我 们 再 定义 generate MAN, 它 将 隐 含 层 的 输出 结果 作为 输入 , 通过 之 后 的 重建 层 将 提 
取 到 的 高 阶 特征 复原 为 原始 数据 。 这 个 接口 和 前 面 的 transform 正好 将 整个 自 编码 器 拆 分 
为 两 部 分 ， 这 里 的 generate 接口 是 后 半 部 分 ， 将 高 阶 特征 复原 为 原始 数据 的 步骤 。 
def generate(self, hidden = None): 
if hidden is None: 
hidden = np.random.normal(size = self.weights["b1"]) 


return self.sess.run(self.reconstruction, 


feed dict = {self.hidden: hidden}) 
接 下 来 定义 reconstruct MAN, 它 整 体 运行 一 遍 复原 过 程 , 包括 提取 高 阶 特征 和 通过 高 


Marika Rags, BUTE transform 和 generate 两 块 。 输 入 数据 是 原 数 据 ， 输 出 数据 是 复 
原 后 的 数据 。 


def reconstruct(self, X): 
return self.sess.run(self.reconstruction, feed _dict = {self.x: X, 


self.scale: self.training scale 
这 里 的 getWeights 函数 作用 是 获取 隐 含 层 的 权重 wl。 
def getWeights(self): : 
= return self.sess.run(self.weights[ ‘'w1']) 
而 getBiases 函数 则 是 获取 隐 含 层 的 偏 置 系数 bl。 


def getBiases(self): 


return self.sess.run(self.weights[ ‘bi']) 


至 此 , 去 噪 自 编 码 器 的 class 就 全 部 定义 完了 , 包括 神经 网 络 的 设计 、 权 重 的 初始 化 ， 
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以 及 几 个 常用 的 成 员 函 数 (transform, generate 等 ， 他 们 属于 计算 图 中 的 子 图 )。 接 下 来 
使 用 定义 好 的 AGN 自 编码 器 在 MNIST 数据 集 上 进行 一 些 简单 的 性 能 测试 ， 看 看 模型 对 
数据 的 复原 效果 究竟 如 何 。 


接 下 来 依然 使 用 TensorFlow 提供 的 读 取 示例 数据 的 函 效 载 入 MNIST 数据 集 。 


mnist = input_data.read_data_sets('MNIST_data', one_hot = True) 


先 定义 一 个 对 训练 、 测 试 数 据 进行 标准 化 处 理 的 函数 。 标 准 化 即 让 数据 变 成 0 均值 ， 
且 标 准 差 为 1 的 分 布 。 方 法 就 是 先 减 去 均值 ， 再 除 以 标准 差 。 我 们 直接 使 用 
sklearn.preprossing 的 StandardScaler 这 个 类 ， 先 在 训练 集 上 进行 fit, XA Scaler 用 到 
训练 数据 和 测试 数据 上 。 这 里 需要 注意 的 是 , 必须 保证 训练 、 测 试 数据 都 使 用 完全 相同 的 
Scaler， 这 样 才 能 保证 后 面 模型 处 理 数 据 时 的 一 致 性 ， 这 也 就 是 为 什么 先 在 训练 数据 上 fit 
出 一 个 共用 的 Scaler 的 原因 。 


def standard _scale(X_train, X_test): 
preprocessor = prep.StandardScaler().fit(X_train) 
X_train = preprocessor.transform(X_train) 
X_test = preprocessor.transform(X_test) 


return X_train, X_test 
再 定义 一 个 获取 随机 block 数据 的 函数 : 取 一 个 从 0 到 len(data) 一 batch_size 之 间 的 


随机 整数 ,再 以 这 个 随机 数 作为 block 的 起 始 位 置 ,然后 顺序 取 到 一 个 batch size 的 数据 。 
需要 注意 的 是 ， 这 属于 不 放 回 抽样 ， 可 以 提 RAEAN SE. 


def get_ random _ block_ from. _data(data, batch_size): 
start_index = np. random. randint(@, len(data) - batch _size) 


return data[start_ index: (start_ index + batch _size)] 

使 用 之 前 定义 的 standard_scale 函数 对 训练 集 、 测 试 集 进 行 标准 化 变换 。 
X_train, X test = standard_scale(mnist.train.images, mnist.test.images) 

接 下 来 定义 几 个 常用 参数 ,总 训练 样本 数 ,最 大 训练 的 轮 数 ( epoch 479 20, batch_size 
设 为 128， 并 设置 每 隔 一 轮 (epoch) 就 显示 一 次 损失 costo 


n_samples = int(mnist.train.num examples) 


training_epochs = 20 
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batch_size = 128 
display_step = 1 


创建 一 个 AGN 目 编码 需 的 实例 , 定义 模型 输入 市 点 数 n_input 7y 784, 自 编码 器 的 隐 
SETA n hidden 为 200， 隐 含 层 的 激活 函数 transfer function 为 softplus， 优 化 器 
optimizer 为 Adam 且 学 习 速 率 为 0.001， 同 时 将 噪声 的 系数 scale 设 为 0.01。 
autoencoder = AdditiveGaussianNoiseAutoencoder(n_input = 784, 

n_hidden = 200, 
transfer_function = tf.nn.softplus, 
optimizer = tf.train.AdamOptimizer(learning rate = 0.001), 


scale = 0.01) 


下 面 开 始 训练 过 程 ， 在 每 一 轮 〈epoch ) 循环 开始 时 ， 我 们 将 平均 损失 ave cost 设 为 
0， 并 计算 总 共 需 要 的 batch 数 〈 通 过 样本 总 数 除 以 batch 大 小 )， 注 意 这 里 使 用 的 是 不 放 
回 抽样 ， 所 以 并 不 能 保证 每 个 样本 都 被 抽 到 并 参与 训练 。 然 后 在 每 一 个 batch 的 循环 中 ， 
先 使 用 get_random_block from_ data 函数 随机 抽取 一 个 block 的 数据 ， 然 后 使 用 成 员 函 数 
partial fit 训练 这 个 batch 的 数据 并 计算 当前 的 cost， 最 后 将 当前 的 cost 整合 到 avg cost 
中 ,在 每 一 轮 迭 代 后 ,显示 当前 的 迭代 数 和 这 一 轮 迭 代 的 平均 cost. Fel ESHA 
cost KAA 19000, 在 最 后 一 轮 和 迭代 时 ，cost KAW 7000, 再 接着 训练 cost 也 很 难 继续 降 
低 了 。 读 者 如 果 感 兴趣 ， 可 以 通过 调整 batch size, epoch 数 、 优 化 器 、 自 编码 器 的 隐 含 
层 效 、 隐 含 节 点 数 等 ， 来 尝试 获得 更 低 的 costo 


for epoch in range(training epochs): 
-avg_cost = ð. 
total_batch = int(n_samples / batch_size) 
for i in range(total_ batch): . 


batch_xs = get_random_block_from_data(X_train, batch size) 


cost = autoencoder.partial fit(batch_xs) 


avg cost += cost / n_samples * batch_size 


if epoch % display step == @: 
print("Epoch:", '%@4d' % (epoch + 1), "cost=", 
"{:.9F}".format(avg_cost)) 
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最 后 对 训练 完 的 模型 进行 性 能 测试 ， 这 里 使 用 之 前 定义 的 成 员 男 数 cal total cost 对 
测试 集 X test 进行 测试 ， 评 价 指标 依然 是 平方 误差 ， 如 果 使 用 示例 中 的 参数 ， 损 失 值 约 
为 60 万 。 


print("Total cost: ”+ str(autoencoder.calc_total_cost(X_test))) 


至 此 ， 去 品目 编码 器 的 TensorFlow 实现 就 全 部 结束 了 。 读 者 可 以 发 现 ， 实 现 目 编码 
器 和 实现 一 个 单 隐 含 层 的 神经 网 络 差不多 , 只 不 过 是 在 数据 输入 时 做 了 标准 化 , 并 加 上 了 
一 个 高 斯 噪声 , 同时 我 们 的 输出 结果 不 是 数字 分 类 结果 ， 而 是 复原 的 数据 , 因此 不 需要 用 
标注 过 的 数据 进行 监督 训练 。 目 编码 器 作为 一 种 无 监督 学 习 的 方法 , 它 与 其 他 无 监督 学 习 
的 主要 不 同 在 于 , 它 不 是 对 数据 进行 聚 类 ,而 是 提取 其 中 最 有 用 、 最 频繁 出 现 的 高 阶 特征 ， 
根据 这 些 高 阶 特征 重 构 数 据 。 在 深度 学 习 发 展 早 期 非常 流行 的 DBN ,也 是 依靠 这 种 思想 ， 
先 对 数据 进行 无 监督 的 学 习 , 提取 到 一 些 有 用 的 特征 , 将 神经 网 络 权 重 初始 化 到 一 个 较 好 
的 分 布 ， 然 后 再 使 用 有 标注 的 数据 进行 监督 训练 ， 即 对 权重 进行 fine-tune。 


现在 ,无 监督 式 预 训练 的 使 用 场景 比 以 前 少 了 许多 ， 训 练 全 连接 的 MLP 或 者 CNN, 
RNN 时 ,我 们 都 不 需要 先 使 用 无 监督 训练 提取 特征 。 但 是 无 监督 学 习 用 至 AutoEncoder 
依然 是 非常 有 用 的 。 现实 生活 中 ,大 部 分 的 数据 都 是 没有 标注 信息 的 , 但 人 脑 就 很 擅长 处 
理 这 些 数 据 , 我 们 会 提取 其 中 的 高 阶 抽象 特征 , 并 使 用 在 其 他 地 方 。 自 编码 器 作为 深度 学 
习 在 无 监督 领域 的 尝试 是 非常 成 功 的 ,同时 无 监督 学 习 也 将 是 深度 学 习 接 下 来 的 一 个 重要 
发 展 方 同 。 


4.3 ”多 层 感 知 机 简介 


在 第 3 章 中 我 们 使 用 TensorFlow 实现 了 一 个 简单 的 Softmax Regression 模型 ， 这 个 
线性 模型 最 大 的 特点 就 是 简单 易 用 ， 但 是 拟 合 能 力 不 强 。Softmax Regression 可 以 算是 多 
分 类 问题 logistic regression， 它 和 传统 意义 上 的 神经 网 络 的 最 大 区 别 是 没有 隐 含 层 。 隐 合 
层 是 神经 网 络 的 一 个 重要 概念 , 它 是 指 除 输 入 、 输 出 层 外 , 中 间 的 那些 层 。 输 入 层 和 输出 
层 是 对 外 可 见 的 ， 因 此 也 被 称 作 可 视 层 ， 而 中 间 层 不 直接 暴露 出 来 ， 是 模型 的 黑箱 部 分 ， 
通常 也 比较 难 具 有 可 解释 性 , 所 以 一 般 被 称 作 隐 含 层 。 有 了 隐 含 层 , 神经 网 络 就 具有 了 一 
些 特殊 的 属性 , 比如 引入 非 线性 的 隐 含 层 后 , 理论 上 只 要 隐 含 节点 足够 多 , 即使 只 有 一 个 
隐 含 层 的 神经 网 络 也 可 以 拟 合 任意 函数 。 同 时 隐 含 层 越 多 , 越 容 易 拟 合 复杂 函数 。 有 理论 
研究 表明 , 为 了 拟 合 复杂 函数 需要 的 隐 含 节点 的 数目 , 基本 上 随 着 隐 含 层 的 数量 增多 呈 指 
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数 下 降 趋 势 。 也 就 是 说 层 数 越 多 , 神经 网 络 所 需要 的 隐 含 节点 可 以 越 少 。 这 也 是 深度 学 习 
的 特点 之 一 ， 层 数 越 深 ， 概 念 越 抽象 ， 需 要 背诵 的 知识 点 〈 神经 网 络 隐 含 节 点 ) 就 越 少 。 
不 过 实际 使 用 中 , 使 用 层 数 较 深 的 神经 网 络 会 遇 到 许多 困难 , 比如 容易 过 拟 合 、 参 数 难以 
调试 、 梯 度 弥 散 ， 等 等 。 对 这 些 问 题 我 们 需要 很 多 Trick 来 解决 ， 在 最 近 几 年 的 研究 中 ， 
越 来 越 多 的 方法 ， 比 如 Dropout”, Adagrad®, ReLU” 等， 逐渐 帮助 我 们 解决 了 一 部 分 问 
题 。 


过 拟 合 是 机 器 学 习 中 一 个 常见 的 问题 , 它 是 指 模型 预测 准确 率 在 训练 集 上 升 高 , 但 是 
在 测试 集 上 反而 下 降 了 , 这 通常 意味 着 泛 化 性 不 好 , 模型 只 是 记忆 了 当前 数据 的 特征 , 不 
具备 推广 能 力 。 尤 其 在 神经 网 络 中 ， 因 为 参数 众多 ， 经 常 出 现 参数 比 数据 还 要 多 的 情况 ， 
这 就 非常 容易 出 现 只 是 记忆 了 训练 集 特征 的 情况 。 为 了 解决 这 个 问题 ，Hinton 教授 团队 
提出 了 一 个 思路 简单 但 是 非常 有 效 的 方法 ，Dropout。 在 使 用 复杂 的 卷 积 神经 网 络 训练 图 
像 数 据 时 尤其 有 效 , 它 的 大 致 思路 是 在 训练 时 , 将 神经 网 络 某 一 层 的 输出 节点 数据 随机 丢 
弃 一 部 分 。 我 们 可 以 理解 成 随机 把 一 张 图 片 50% 的 点 删除 掉 ( 即 随机 将 50% 的 点 变 成 黑 
点 )， 此 时 人 还 是 很 可 能 识别 出 这 张 图 片 的 类 别 ， 当 时 机 器 也 是 可 以 的 。 这 种 做 法 实质 上 
等 于 创造 出 了 很 多 新 的 随机 样本 , 通过 增 大 样本 量 、 减 少 特征 数量 来 防止 过 拟 合 。 Dropout 
其 实 也 算是 一 种 bagging 方法 ,我 们 可 以 理解 成 每 次 丢弃 节点 数据 是 对 特征 的 一 种 采样 。 
相当 于 我 们 训练 了 一 个 ensemble 的 神经 网 络 模 型 ， 对 每 个 样本 都 做 特征 采样 ， 只 不 过 没 
有 训练 多 个 神经 网 络 模型 ， 只 有 一 个 融合 的 神经 网 络 。 


参数 难以 调试 是 神经 网 络 的 另 一 大 痛 点 ， 尤 其 是 SGD 的 参数 ， 对 SGD 设置 不 同 的 
学 习 速 率 , 最 后 得 到 的 结果 可 能 差异 巨大 。 神经 网 络 通常 不 是 一 个 凸 优化 的 问题 ， 它 处 处 
充满 了 局 部 最 优 。 SGD 本 身 也 不 是 一 个 比较 稳定 的 算法 , 结果 可 能 会 在 最 优 解 附 近 波 动 ， 
而 不 同 的 学 习 速率 可 能 导致 神经 网 络 落 入 截然 不 同 的 局 部 最 优 之 中 。 不 过 , 通常 我 们 也 并 
不 指望 能 达到 全 局 最 优 , 有 理论 表示 , 神经 网 络 可 能 有 很 多 个 局 部 最 优 解 都 可 以 达到 比较 
好 的 分 类 效果 ,而 全 局 最 优 反而 容易 是 过 拟 合 的 解 。 我 们 也 可 以 从 人 来 类 推 , 不 同 的 人 有 
各 自 边 异 的 脑 神经 连接 , 没有 两 个 人 的 神经 连接 方式 能 完全 一 致 , 就 像 没有 两 个 人 的 见解 
能 完全 相同 , 但 是 每 个 人 的 脑 神经 网 络 ( 局 部 最 优 解 ) 对 识别 图 片 中 物体 类 别 都 有 很 不 错 
的 效果 。 对 SGD， 一 开始 我 们 可 能 希望 学 习 速 率 大 一 些 ， 可 以 加 速 收敛 ， 但 是 训练 的 后 
期 又 希望 学 习 速率 可 以 小 一 些 , 这 样 可 以 比较 稳定 地 落 入 一 个 局 部 最 优 解 。 不同 的 机 器 学 
习 问题 所 需要 的 学 习 速率 也 不 太 好 设置 ， 需 要 反复 调试 ， 因 此 就 有 像 Adagrad, Adam”, 
Adadelta” 等 自 适应 的 方法 可 以 减轻 调试 参数 的 负担 。 对 于 这 些 优化 算法 ， 通 常 我 们 使 用 
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它 默 认 的 参数 设置 就 可 以 取得 一 个 比较 好 的 效果 。 而 SCD 则 需要 对 学 习 速 率 、 
Momentum”, Nesterov” 等 参数 进行 比较 复杂 的 调试 ， 当 调试 的 参数 较为 适合 问题 时 , 才 
能 达到 比较 好 的 效果 。 


梯度 弥散 〈Gradient Vanishment ) 是 男 一 个 影响 深层 神经 网 络 训 练 的 问题 ， 在 ReLU 
激活 函数 出 现 之 前 ， 神 经 网 络 训练 全 部 都 是 用 Sigmoid 作为 激活 水 数 。 这 可 能 是 因为 
Sigmoid 峭 数 具有 限制 性 ， 输 出 数值 在 0 ~ 1， 最 符合 概率 输出 的 定义 。 非 线性 的 Sigmoid 
了 男 数 在 信号 的 特征 空间 映射 上 , 对 中 央 区 的 信号 增益 较 大 , 对 两 侧 区 的 信和 号 增益 小 。 从 生 
物 神 经 科学 的 角度 来 看 , 中 央 区 酷似 神经 元 的 兴 香 态 , 两 侧 区 酷似 神经 元 的 抑制 态 。 因 而 
在 神经 网 络 训练 时 ， 可 以 将 重要 特征 置 于 中 央 区 ， 将 非 重 要 特征 置 于 两 侧 区 。 可 以 说 ， 


Sigmoid 比 最 初期 的 线性 激活 函数 y = x， 阶 梯 激 活 函数 y = {了 SS 和 y = { OS 


了 不 少 。 但 是 当 神 经 网 络 层 数 较 多 时 ，Sigmoid 函数 在 反 向 传播 中 梯度 值 会 逐渐 减 小 ， 经 
过 多 层 的 传递 后 会 呈 指 数 级 急剧 减 小 ， 因 此 梯度 值 在 传递 到 前 面 几 层 时 就 变 得 非常 小 了 。 
这 种 情况 下 , 根据 训练 数据 的 反馈 来 更 新 神经 网 络 的 参数 将 会 非常 缓慢 , 基本 起 不 到 训练 
的 作用 。 直 到 ReLU 的 出 现 ， 才 比较 完美 地 解决 了 梯度 弥散 的 问题 。ReLU 是 一 个 简单 的 
非 线性 函数 y = max(0, x), 它 在 坐标 轴 上 是 一 条 折线 ( 如 图 4-4(B) 所 示 ), 当 x 和 0 时 ,y = 0; 
当 x > 0 时 ，y = x， 非 常 类 似 于 人 脑 的 国 值 响应 机 制 (如 图 4-4(A) 所 示 )。 信 和 号 在 超过 某 
个 赋值 时 ， 神 经 元 才 会 进入 兴奋 和 激活 的 状态 ,平时 则 处 于 抑制 状态 。ReLU 可 以 很 好 地 
传递 梯度 , 经 过 多 层 的 反 向 传播 , 梯度 依旧 不 会 大 幅 缩小 , 因此 非常 适合 训练 很 深 的 神经 
网 络 。ReLU 从 正面 解决 了 梯度 弥散 的 问题 ， 而 不 需要 通过 无 监督 的 未 层 训练 初始 化 权重 
来 绕 行 。ReLU 对 比 Sigmoid 的 主要 变化 有 如 下 3 点 。 


(1) 单 侧 抑制 。 
(2) 相对 宽阔 的 兴奋 边界 。 
(3) 黎 蚊 激活 性 。 


神经 科学 家 在 进行 大 脑 能 量 消耗 的 研究 中 发 现 ， 神 经 元 编码 的 工作 方式 具有 黎 玉 性 ， 
推测 大 脑 同 时 被 激活 的 神经 元 只 有 1% ~ 4%。 神 经 元 只 会 对 输入 信号 有 少 部 分 的 选择 性 啊 
应 ,大量 不 相关 的 信号 被 屏蔽 ,这 样 可 以 更 高 效 地 提取 重要 特征 。 传统 的 Sigmoid HZU 
有 接近 一 半 的 神经 元 被 激活 ， 不 符合 神经 科学 的 研究 。Softplus 虽然 有 单 侧 抑制 ， 却 没有 
稀疏 激活 性 ， 因 而 ReLU 函数 max(0,x) 成 了 最 符合 实际 神经 元 的 模型 。 目 前 ，ReLU 及 其 
变种 ( EIU”, PReLU”, RReLU* ) 已 经 成 为 了 最 主流 的 激活 函数 。 实 践 中 大 部 分 情况 下 
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( 包括 MLP 和 CNN, RNN 内 部 主要 还 是 使 用 Sigmoid、Tanh、Hard Sigmoid ) KKS 
的 激活 函数 从 Sigmoid HRA ReLU 都 可 以 人 带 来 训练 速度 及 模型 准确 率 的 提升 。 当 然 神经 
网 络 的 输出 层 一 般 都 还 是 Sigmoid 函数 ， 因 为 它 最 接近 概率 输出 分 布 。 


Firing rate (Hz) 





4 6 
Input current (A) 





x 10” 
图 4-4(A) 神经 科学 家 提出 的 神经 元 激活 模型 ”图 4-4(B) ReLU 激活 函数 及 Softplus 激活 函数 


上 面 三 段 分 别提 到 了 可 以 解决 多 层 神 经 网 络 问题 的 Dropout、Adagrad、ReLU 等 ， 那 
么 多 层 神 经 网 络 到 底 有 什么 显著 的 能 力 值 得 大 家 探索 呢 ? 或 者 说 神经 网 络 的 隐 含 层 到 底 
有 什么 用 呢 ? 隐 含 层 的 一 个 代表 性 的 功能 是 可 以 解决 KOR 问题 。 在 早期 神经 网 络 的 研究 
中 , 有 学 者 提出 一 个 尖锐 的 问题 , 当时 ( 没有 隐 含 层 ) 的 神经 网 络 无 法 解决 KOR 的 问题 。 
如 图 4-5 所 示 ， 假 设 我 们 有 两 个 维度 的 特征 ， 并 且 有 两 类 样本 ，( 0，0 )、(1，1 ) ERE, 
(0, 1). (1, 0) 是 黑色 ， 在 这 个 特征 空间 中 这 两 类 样本 是 线性 不 可 分 的 ， 也 就 是 说 ,我 
们 无 法 用 一 条 直线 把 灰 、 黑 两 类 分 开 。 没有 隐 含 层 的 神经 网 络 是 线性 的 , 所 以 不 可 能 对 这 
两 类 样本 进行 正确 地 区 分 。 a i 缺点 , 也 直接 导致 了 当时 神经 网 络 研 
究 的 低谷 。 当 引入 了 隐 含 层 并 使 用 非 线性 的 激活 函数 (如 Sigmoid、ReLU ) 后 ， 我 们 可 
以 使 用 曲线 划分 两 类 样本 ， 可 以 轻松 解决 XOR 异 或 函数 的 分 类 问题 。 神 经 网 络 的 隐 含 层 
RZ, 就 可 以 对 原 有 特征 进行 越 抽象 的 变换 ， Es RES te 
络 〈 或 多 层 感知 机 ，Mnulti-Layer Perceptron; MLP ) 的 功能 所 在 。 


接 下 来 ,我 们 通过 例子 展示 在 仅 加 入 一 个 隐 含 层 的 情况 下 ， 神 经 网 络 对 MNIST 数据 
集 的 分 类 性 能 就 有 显著 提升 ,可 以 达到 98% 的 准确 率 。 当 然 , 其 中 使 用 了 Dropout、Adagrad、 
ReLU 等 辅助 性 组 件 。 
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图 4-5 XOR 分 类 问题 


4.4 TensorFlow 实现 多 层 感 知 机 


在 第 3 章 中 我 们 讲解 了 使 用 TensorFlow 实现 一 个 完整 的 Softmax Regression( 无 隐 合 
Z), FE MNIST 数据 集 上 取得 了 大 约 92% 的 正确 率 。 现 在 ,我 们 要 给 神经 网 络 加 上 隐 
£E, MEH 4.3 节 提 到 的 减轻 过 拟 合 的 Dropout、 目 适应 学 习 速率 的 Adagrad， 以 及 可 
以 解决 梯度 弥散 的 激活 函数 ReLU。 在 TensorFlow 中 实现 这 些 都 是 非常 方便 的 , RAS 
要 调用 相应 的 类 或 者 水 数 即 可 。 


首先 , 载 入 TensorFlow 并 加 载 MNIST 数据 集 , 创 建 一 个 TensorFlow 默认 的 Interactive 
Session ， 这 样 后 面 执行 各 项 操作 就 无 须 指 定 Session T o 


from tensorflow.examples.tutorials.mnist import input_data 
import tensorflow as tf : 
mnist = input_data. read_ data _sets("MNIST da H one _hot=True) 


sess = CEs InteractiveSession() 


接 下 来 我 们 要 给 隐 含 层 的 参数 设置 Variable 并 进行 初始 化 ,这 里 in_units 是 输入 市 点 
数 , hl_units 即 隐 含 层 的 输出 节点 数 设 为 300 (在 此 模型 中 隐 含 节点 数 设 在 200~1000 范围 
内 的 结果 区 别 都 不 大 ) W1 bl 是 隐 含 层 的 权重 和 偏 置 , 我 们 将 偏 置 全 部 赋值 为 0, 并 将 
权重 初始 化 为 截断 的 正 态 分 布 , 其 标准 差 为 0.1, 这 一 步 可 以 通过 truncated_normal 方便 
地 实现 。 因 为 模型 使 用 的 激活 函数 是 ReLU， 所 以 需要 使 用 正 态 分 布 给 参数 加 一 点 品 声 ， 
来 打破 完全 对 称 并 旦 避免 0 梯度 。 在 其 他 一 些 模型 中 , 有 时 还 需要 给 偏 置 赋 上 一 些小 的 非 
零 值 来 避免 dead neuron ( 死亡 神经 元 )， 不 过 在 这 里 作用 不 太 明 显 。 而 对 最 后 输出 层 的 


ù 70 


ww ai bbt.com DODOUDUDDDOD 





4 TensorFlow 实现 自 编码 器 及 多 层 感知 机 


Softmax， 直 接 将 权重 W2 和 偏 置 b2 全 部 初始 化 为 0 即 可 ( 上 面 提 到 过 ， 对 于 Sigmoid, 
在 0 附近 最 敏感 、 梯 度 最 大 )。 

in units = 784 

h1i units = 300 

W1 = tf.Variable(tf.truncated normal([in units, hi_units], stddev=@.1)) 

b1 = tf.Variable(tf.zeros([h1_units])) 

W2 = tf.Variable(tf.zeros([h1_units, 16])) 

b2 = tf.Variable(tf.zeros([10])) 


接 下 来 定义 输入 x 的 placeholder。 男 外 因为 在 训练 和 预测 时 ,Dropout 的 比率 keep prob 
( 即 保留 节点 的 概率 ) 是 不 一 样 的 ， 通 弟 在 训练 时 小 于 1， 而 预测 时 则 等 于 1， 所 以 也 把 
Dropout 的 比率 作为 计算 图 的 输入 ， 并 定义 成 一 个 placeholder, 
x = tf.placeholder(tf.float32, [None, in_units]) 
keep prob = tf. placeholder(tf.float32) 


下 面 定 义 模 型 结构 。 首 先 需 要 一 个 隐 含 层 ， 命 名 为 hiddenl ， 可 以 通过 
攻 nnrelu(tftmatmul(x, 矿 ))+b) 实 现 一 个 激活 了 国 数 为 ReLU 的 隐 含 屋 ， 这 个 隐 含 层 的 计算 公 
式 就 是 y = relu(W,x 十 bi1)。 接 下 来 ,调用 tf.nn.dropout 实现 Dropout 的 功能 ， 即 随机 将 
一 部 分 节点 置 为 0， 这 里 的 keep_prob 参数 即 为 保留 数据 而 不 置 为 0 的 比例 ， 在 训练 时 应 
该 是 小 于 1 的 ， 用 以 制造 随机 性 ， 防 止 过 拟 合 ; 在 预测 时 应 该 等 于 1， 即 使 用 全 部 特征 来 
预测 样本 的 类 别 。 最 后 是 输出 层 ， 也 就 是 第 3 章 介 绍 的 Softmax， 这 一 行 代码 的 功能 和 之 
前 是 一 致 的 。 


hiddeni = tf.nn.relu(tf.matmul(x, W1) + b1) 
hiddeni-drop = tf.nn.dropout(hidden1, keep_prob) 
y = tf.nn.softmax(tf.matmul(hiddeni1_drop, W2) + b2) 


第 3 章 提 到 的 使 用 TensorFlow 训练 神经 网 络 的 4 个 步 又， 到 目前 为 止 ， 我 们 已 经 完 
成 了 4 步 中 的 第 1 步 : 定 义 算法 公式 , 即 神 经 网 络 forward 时 的 计算 。 接 下 来 继续 第 2 步 ， 
定义 损失 函数 和 选择 优化 器 来 优化 loss, IX HOE ORS Be AB, 和 之 前 一 
致 ， 但 是 优化 器 选择 自 适应 的 优化 器 Adagrad， 并 把 学 习 速 率 设 为 0.3， 这 里 我 们 直接 使 
FA tf.train.AdagradOptimizer 就 可 以 了 。 类 似 地 , 还 有 Adadelta 及 Adam 等 优化 器 , 读者 可 
以 目 行 尝试 ， 不 过 学 习 速 率 可 能 需要 调整 。 
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y_ = tf.placeholder(tf.float32, [None, 10]) 
cross entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y), 
reduction indices=[1])) 


train step = tf.train.AdagradOptimizer(@.3).minimize(cross_ entropy) 


然后 进行 第 3 步 ， 训 练 步 又， 这 里 有 一 点 和 之 前 不 同 ,我 们 加 入 了 keep_prob 作为 计 
算 图 的 输入 , 并 且 在 训练 时 设 为 0.75, 即 保留 75% 的 节点 , 其 余 的 23% 置 为 0。 一般 来 说 ， 
对 越 复杂 越 大 规模 的 神经 网 络 ，Droponut 的 效果 越 显著 。 另 外 ， 因 为 加 入 了 隐 含 层 ， 我 们 
需要 更 多 的 训练 迭代 来 优化 模型 参数 以 达到 一 个 比较 好 的 效果 。 所 以 一 共 采 用 了 3000 个 
bacth， 每 个 batch 包含 100 条 样本 ， 一 共 30 万 的 样本 ， 相 当 于 是 对 全 数据 集 进 行 了 5 轮 
(epoch) 迭代 。 读 者 也 可 以 尝试 增 大 循环 次 数 ， 众 确 率 会 略 有 提高 。 


tf.global_ variables initializer().run() 

for i in range(30e0): 
batch_xs, batch_ys = mnist.train.next_batch(100) 
train_step.run({x: batch_xs, y_: batch_ys, keep prob: @.75}) 


最 后 我 们 进行 第 4 步 , 对 模型 进行 准确 率 评 测 , 这 里 的 代码 和 第 3 草 讲 解 的 评测 代码 
基本 一 致 ， 但 还 是 需要 加 入 一 个 keep_prob 作为 输入 。 因 为 是 预测 部 分 ， 所 以 我 们 直接 令 
keep_prob 等 于 1 即 可 ,这样 可 以 达到 模型 最 好 的 预测 效果 。 


correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1)) 
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32)) 
print(accuracy.eval({x: mnist.test.images, y_: 


_: mnist.test.labels, 
keep prob: 1.0})) 


BA, 我 们 在 测试 集 上 可 以 达到 98% 的 准确 率 。 相 比 之 前 的 Softmax, 我 们 的 误差 率 
由 8% 下 降 到 2%, 对 识别 银行 账单 这 种 精确 度 要 求 很 高 的 场景 , 可 以 说 是 飞跃 性 的 提高 。 
而 这 个 提升 仅 靠 增加 一 个 隐 含 层 就 实现 了 , 可见 多 层 神经 网 络 的 效果 有 多 显著 。 当 然 , 其 
中 我 们 也 使 用 了 一 些 Trick 进行 辅助 ， 比 如 Dropout, Adagrad, ReLU 等 ,但 是 起 决定 性 
作用 的 还 是 隐 含 层 本 身 ， 它 能 对 特征 进行 抽象 和 转化 。 


没有 隐 含 层 的 Softmax Regression 只 能 直接 从 图 像 的 像素 点 推断 是 哪个 数字 , 而 没有 
特征 抽象 的 过 程 。 多 层 神 经 网 络 依靠 隐 合 层 ， 则 可 以 组 合 出 高 阶 特征 ， 比 如 横 线 、 竖 线 、 
圆圈 等 ,之 后 可 以 将 这 些 高 阶 特征 或 者 说 组 件 再 组 合成 数字 ,就 能 实现 精准 的 匹配 和 分 类 。 
隐 含 层 输 出 的 高 阶 特征 ( 组件 ) 经 常 是 可 以 复 用 的 , 所 以 每 一 类 的 判别 、 概 率 输 出 都 共 至 
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这 些 高 阶 特征 ， 而 不 是 各 自 连 接 独 立 的 高 阶 特征 。 


同时 我 们 可 以 发 现 ,新 加 了 一 个 隐 含 层 ,， 并 使 用 了 Dropout, Adagrad 和 ReLU， 而 代 
但 没有 增加 很 多 , 这 就 是 TensorFlow 的 优势 之 一 。 它 的 代码 非常 简洁 , 没有 太 多 的 元 余 ， 
可 以 方便 地 将 有 用 的 模块 拼装 在 一 起 。 


总 结 一 下 ， 本 市 我 们 介绍 了 如 何 实现 包含 一 个 隐 含 层 的 MLP， 对 于 有 更 多 个 隐 含 层 
的 MLP， 读 者 可 以 如 法 炮制 。 我 们 讲解 了 Dropout、Adagrad、ReLU 的 原理 和 作用 ， 以 
及 如 何在 TensorFlow 中 使 用 它们 。 


不 过 , 使 用 全 连接 神经 网 络 ( Fully Connected Network, FCN, MLP 的 另 一 种 说 法 ) 
也 是 有 局 限 的 , 即使 我 们 使 用 很 深 的 网 络 、 很 多 的 隐藏 节点 、 很 大 的 迭代 轮 数 ， 也 很 难 在 
MNIST 数据 集 上 达到 99% 以 上 的 准确 率 。 因 此 第 5 章 我 们 将 介绍 卷 积 神经 网 络 ， 以 及 如 
何在 MNIST 数据 集 上 使 用 CNN 达到 99% 以 上 的 准确 率 ， 真 正 满足 识别 银行 支票 这 种 高 
精度 系统 的 需求 。 
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5.1 ” 卷 积 神经 网 络 简 介 


卷 积 神经 网 络 ( Convolutional Neural Network, CNN ) 最 初 是 为 解决 图 像 识 别 等 问 
题 设 计 的 ,当然 其 现在 的 应 用 不 仅 限 于 图 像 和 视频 , 也 可 用 于 时 间 序 列 信号 , 比如 音频 信 
号 、 文 本 数据 等 。 在 早期 的 图 像 识别 研究 中 , 最 大 的 挑战 是 如 何 组 织 特征 ， 因 为 图 像 数据 
不 像 其 他 类 型 的 数据 那样 可 以 通过 人 工 理解 来 提取 特征 。 在 股票 预测 等 模型 中 , 我 们 可 以 
从 原始 数据 中 提取 过 往 的 交易 价格 波动 、 市 鳃 率 、 市 净 率 、 鳃 利 增长 等 金融 因子 , 这 即 万 
特征 工程 。 但 是 在 图 像 中 , 我 们 很 难 根据 人 为 理解 提取 出 有 效 而 丰富 的 特征 。 在 深度 学 习 
出 现 之 前 ， 我 们 必须 借助 SIFT, HoG 等 算法 提取 具有 有 良好 区 分 性 的 特征 ， 表 集合 SVM 
等 机 器 学 习 算法 进行 图 像 识别 。 如 图 5-1 Pra, SIFT 对 一 定 程度 内 的 缩放 、 平移 、 旋转 、 
视角 改变 、 亮 度 调整 等 畸变 ,都 具有 不 变性 , 是 当时 最 重要 的 图 像 特征 提取 方法 之 一 。 可 
以 说 ， 在 之 前 只 能 依靠 SIFT 等 特征 提取 算法 才能 勉强 进行 可 靠 的 图 像 识别 。 
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图 $-1 SIFT. HoG 等 图 像 特征 提取 方法 


然而 SIFT 这 类 算法 提取 的 特征 还 是 有 局 限 性 的 ， 在 ImageNet ILSVRC 比赛 的 最 好 
结果 的 错误 率 也 有 26% 以 上 ， 而 且 常 年 难以 产生 突破 。 卷 积 神经 网 络 提取 的 特征 则 可 以 
达到 更 好 的 效果 , 同时 它 不 需要 将 特征 提取 和 分 类 训练 两 个 过 程 分 开 , 它 在 训练 时 就 自动 
提取 了 最 有 效 的 特征 。CNN 作为 一 个 深度 学 习 架 构 被 提出 的 最 初 诉 求 ， 是 降低 对 图 像 数 
据 预 处 理 的 要 求 ， 以 及 避免 复杂 的 特征 工程 。CNN 可 以 直接 使 用 图 像 的 原始 像素 作为 输 
入 ， 而 不 必 先 使 用 SIFT 等 算法 提取 特征 ， 减 轻 了 使 用 传统 算法 如 SVM 时 必需 要 做 的 大 
量 重复 、 烦 琐 的 数据 预 处 理工 作 。 和 SFT 等 算法 类 似 ，CNN 训练 的 模型 同样 对 缩放 、 平 
移 、 旋 转 等 畸变 具有 不 变性 ， 有 着 很 强 的 泛 化 性 。CNN 的 最 大 特点 在 于 卷 积 的 权 值 共享 
结构 , 可 以 大 幅 减 少 神经 网 络 的 参数 量 , 防止 过 拟 合 的 同时 又 降低 了 神经 网 络 模型 的 复杂 
度 。CNN 的 权 值 共享 其 实 也 很 像 早 期 的 延 时 神经 网 络 (TDNN )， 只 不 过 后 者 是 在 时 间 这 
一 个 维度 上 进行 权 值 共享 ， 降 低 了 学 习 时 间 序 列 信号 的 复杂 度 。 


卷 积 神经 网 络 的 概念 最 早出 目 19 世纪 60 年 代 科 学 家 提出 的 感受 野 (Receptive 
Field” )。 当 时 科学 家 通过 对 猪 的 视觉 皮层 细胞 研究 发 现 ， 每 一 个 视觉 神经 元 只 会 处 理 一 
小 块 区 域 的 视觉 图 像 ， 即 感受 野 。 到 了 20 世纪 80 ER, 日 本 科学 家 提出 神经 认 知 机 
( Neocognitron”) 的 概念 ， 可 以 算 作 是 卷 积 网 络 最 初 的 实现 原型 。 神 经 认 知 机 中 包含 两 类 
神经 元 ， 用 来 抽取 特征 的 S-cells， 还 有 用 来 抗 形变 的 C-cells， 其 中 S-cells 对 应 我 们 现在 
主流 卷 积 神经 网 络 中 的 卷 积 核 滤 波 操 作 ， 而 C-cells 则 对 应 激活 函数 、 最 大 池 化 
( Max-Pooling ) 等 操作 。 同 时 ，CNN 也 是 首 个 成 功 地 进行 多 层 训 练 的 网 络 结构 ， 即 前 面 
章节 提 到 的 LeCun 的 LeNet5”， 而 全 连接 的 网 络 因为 参数 过 多 及 梯度 弥散 等 问题 ， 在 早 
期 很 难 顺利 地 进行 多 层 的 训练 。 卷 积 神经 网 络 可 以 利用 空间 结构 关系 减少 需要 学 习 的 参数 
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量 , 从 而 提高 反 向 传播 算法 的 训练 效率 。 在 卷 积 神经 网 络 中 ,第 一 个 卷 积 层 会 直接 接受 图 
像 像 素 级 的 输入 ,每 一 个 卷 积 操 作 只 处 理 一 小 块 图 像 ,进行 卷 积 变化 后 再 传 到 后 面 的 网 络 ， 
每 一 层 卷 积 ( 也 可 以 说 是 滤波 器 ) 都 会 提取 数据 中 最 有 效 的 特征 。 这 种 方法 可 以 提取 到 图 
像 中 最 基础 的 特征 , 比如 不 同方 向 的 边 或 者 抛 角 , 而 后 再 进行 组 合 和 抽象 形成 更 高 阶 的 特 
征 ， 因 此 CNN 可 以 应 对 各 种 情况 ， 理 论 上 具有 对 图 像 缩放 、 和 平移 和 旋转 的 不 变性 。 


一 般 的 卷 积 神经 网 络 由 多 个 卷 积 层 构成 ， 每 个 卷 积 层 中 通常 会 进行 如 下 几 个 操作 。 


(1) 图 像 通过 多 个 不 同 的 卷 积 核 的 滤波 ， 并 加 偏 置 (bias )， 提 取出 局 部 特征 ， 每 一 
个 卷 积 核 会 映射 出 一 个 新 的 2D 图 像 。 


(2 ) 将 前 面 卷 积 核 的 滤波 输出 结果 , 进行 非 线性 的 激活 函数 处 理 。 目 前 最 篆 见 的 是 使 
用 ReLU 函数 ， 而 以 前 Sigmoid 函数 用 得 比较 多 。 


(3) 对 激活 函数 的 结果 再 进行 池 化 操作 〈 即 降 采 样 ， 比 如 将 2x2 的 图 片 降 为 1x1 的 
图 片 )， 目 前 一 般 是 使 用 最 大 池 化 ， 保 留 最 显著 的 特征 ， 并 提升 模型 的 畸变 容忍 能 力 。 


这 几 个 步骤 就 构成 了 最 常见 的 卷 积 层 , 当然 也 可 以 再 加 上 一 个 LRN“ Local Response 
Normalization, ， 局 部 响应 归 一 化 层 ) 层 ， 目 前 非常 流行 的 Trick 还 有 Batch Normalization 
等 。 


一 个 卷 积 层 中 可 以 有 多 个 不 同 的 卷 积 核 ,而 每 一 个 卷 积 核 都 对 应 一 个 滤波 后 映射 出 的 
新 图 像 , 同 一 个 新 图 像 中 每 一 个 像素 都 来 自 完 全 相同 的 卷 积 核 , 这 就 是 卷 积 核 的 权 值 共享 。 
那 我 们 为 什么 要 共享 卷 积 核 的 权 值 参数 呢 ? 答案 很 简单 , 降低 模型 复杂 度 , 减轻 过 拟 合并 
降低 计算 量 。 举 个 例子 ， 如 图 5-2 所 示 ， 如 果 我 们 的 图 像 尺寸 是 1000 像素 x1000 RA, 
并 且 假 定 是 黑白 图 像 , 即 只 有 一 个 颜色 通道 , 那么 一 张 图 片 就 有 100 万 个 像素 点 , 输入 数 
据 的 维度 也 是 100 万 。 接 下 来 ， 如 果 连 接 一 个 相同 大 小 的 隐 含 层 〈100 ARETA ), 
那么 将 产生 100 万 x100 万 = 一 万 亿 个 连接 。 仅 仅 一 个 全 连接 必 Fully Connected’ Layer ), 
就 有 一 万 亿 连 接 的 权重 要 去 训练 , 这 已 经 超出 了 普通 硬件 的 计算 能 力 。 我 们 必须 减少 需要 
训练 的 权重 数量 , 一 是 降低 计算 的 复杂 度 , 二 是 过 多 的 连接 会 导致 严重 的 过 拟 合 , 减少 连 
接 数 可 以 提升 模型 的 泛 化 性 。 


图 像 在 空间 上 是 有 组 织 结构 的 ,每 一 个 像素 点 在 空间 上 和 周围 的 像素 点 实际 上 是 有 紧 
密 联系 的 , 但 是 和 太 遥 远 的 像素 点 就 不 一 定 有 什么 关联 了 。 这 就 是 前 面 提 到 的 人 的 视觉 感 
受 野 的 概念 , 每 一 个 感受 野 只 接受 一 小 块 区 域 的 信号 。 这 一 小 块 区 域内 的 像素 是 互相 关联 
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的 , 每 一 个 神经 元 不 需要 接收 全 部 像素 点 的 信息 ， 只 需要 接收 局 部 的 像素 点 作为 输入 ， 而 
后 将 所 有 这 些 神经 元 收 到 的 局 部 信息 综合 起 来 就 可 以 得 到 全 局 的 信息 这 样 就 可 以 将 之 前 
的 全 连接 的 模式 修改 为 局 部 连接 , 之 前 隐 含 层 的 每 一 个 隐 含 节点 都 和 全 部 像素 相连 , 现在 
我 们 只 需要 将 每 一 个 隐 含 节点 连接 到 局 部 的 像素 节点 。 假 设 局 部 感受 野 大 小 是 10x10, 即 
每 个 隐 含 节点 只 与 10x10 个 像素 点 相连 ， 那 么 现在 就 只 需要 10x10x100 万 =1 亿 个 连接 ， 
相 比 之 前 的 1 万 亿 缩 小 了 10000 È. 


FULLY CONNECTED NEURAL NET LOCALLY CONNECTED NEURAL NET 






1A hidden units 
gmp 10712 porometers!!i 


- Spatial correlation is local 
~ Better to put resources elsewhere! 


5-2 全 连接 (A) 和 局 部 连接 (A) 


上 面 我 们 通过 局 部 连接 (Locally Connect) 的 方法 ， 将 连接 数 从 1 万 亿 降 低 到 1 亿 ， 
但 仍然 偏 多 ， 需 要 继续 降低 参数 量 。 现 在 隐 含 层 每 一 个 节点 都 与 10x10 的 像素 相连 ,也 
就 是 每 一 个 隐 仿 节点 都 拥有 100 个 参数 。 假设 我 们 的 局 部 连接 方式 是 卷 积 操作 , 即 默认 每 
一 个 隐 含 节点 的 参数 都 完全 一 样 , 那 我 们 的 参数 不 再 是 1 亿 , 而 是 100。 不 论 图 像 有 多 大 ， 
都 是 这 10x10=100 个 参数 ， 即 卷 积 核 的 尺寸 ， 这 就 是 卷 积 对 缩小 参数 量 的 贡献 。 我 们 不 
需要 由 担心 有 多 少 隐 含 市 点 或 者 图 片 有 多 大 , 参数 量 只 跟 卷 积 核 的 大 小 有 关 , 这 也 就 是 所 
谓 的 权 值 共享 。 但 是 如 果 我 们 只 有 一 个 卷 积 核 ， 我 们 就 只 能 提取 一 种 卷 积 核 滤 波 的 结果 ， 
即 只 能 提取 一 种 图 片 特征 , 这 不 是 我 们 期 望 的 结果 。 好 在 图 像 中 最 基本 的 特征 很 少 , 我 们 
可 以 增加 卷 积 核 的 数量 来 多 提取 一 些 特征 。 图 像 中 的 基本 特征 无 非 就 是 点 和 边 , 无 论 多 么 
复杂 的 图 像 都 是 点 和 边 组 合 而 成 的 。 人 有 眼 识别 物体 的 方式 也 是 从 点 和 边 开 始 的 , 视觉 神经 
元 接受 区 信和 号 后 , 每 一 个 神经 元 只 接受 一 个 区 域 的 信号 , 并 提取 出 点 和 边 的 特征 , 然后 将 
点 和 边 的 信号 传递 给 后 面 一 层 的 神经 元 ， 骨 接着 组 合成 高 阶 特征 ， 比 如 三 角形 、 正 方形 、 
直线 、 抛 角 等 ， 骨 继 续 抽 象 组 合 , 得 到 眼睛 、 盟 子 和 哗 等 五 官 ， 最 后 再 将 五 官 组 合成 一 张 
脸 ， 完 成 匹配 识别 。 因 此 我 们 的 问题 就 很 好 解决 了 ， 只 要 我 们 提供 的 卷 积 核 数 量 足 够 多 ， 
能 提取 出 各 种 方向 的 边 或 各 种 形态 的 点 ， 就 可 以 让 卷 积 层 抽 和 象 出 有 效 而 丰富 的 高 阶 特征 。 
每 一 个 卷 积 核 滤波 得 到 的 图 像 就 是 一 类 特征 的 映射 ， 即 一 个 Feature Map。 一 般 来 说 ,我 
们 使 用 100 个 卷 积 核 放 在 第 一 个 卷 积 层 就 已 经 很 充足 了 。 那 这 样 的 话 ， 如 图 5-3 所 示 , 我 
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们 的 参数 量 就 是 100x100=1 万 个 , 相 比 之 前 的 1 亿 又 缩小 了 10000 倍 。 因此, KEER, 
我 们 就 可 以 高 效 地 训练 局 部 连接 的 神经 网 络 了 。 卷 积 的 好 处 是 , ERRAR T, 我 们 
需要 训练 的 权 值 数量 只 跟 卷 积 核 大 小 、 卷 积 核 数 量 有 关 , 我 们 可 以 使 用 非常 少 的 参数 量 处 
理 任 意 大 小 的 图 片 。 每 一 个 卷 积 层 提 取 的 特征 , 在 后 面 的 层 中 都 会 抽象 组 合成 更 高 阶 的 特 
征 。 而 且 多 层 抽象 的 卷 积 网 络 表达 能 力 更 强 , 效率 更 高 , 相 比 只 使 用 一 个 隐 含 层 提取 全 部 
高 阶 特征 , 反而 可 以 节省 大 量 的 参数 。 当 然 , 我 们 需要 注意 的 是 , 虽然 需要 训练 的 参数 量 
PRET, 但 是 隐 含 节点 的 数量 并 没有 下 降 , 隐 含 节点 的 数量 只 跟 卷 积 的 步 长 有 天。 如 有 果 步 
长 为 1， 那么 隐 含 节点 的 数量 和 输入 的 图 像 像素 数量 一 致 ， 如 果 步 长 为 5， 那 么 每 5x5 的 
像素 才 需 要 一 个 隐 合 入 点 ， 我 们 隐 合 节点 的 数量 束 是 输入 像素 数量 的 1/25。 


LOCALLY CONNECTED NEURAL NET CONVOLUTIONAL NET 


STATIONARITY? Statistics is 


: H similar at dif ferent locations 
A 
BF et F 
区 ya + 
Sad Ba 
$: 






Learn multiple filters. 






Example: 1000x1000 imege 
1M hidden units 
Filter size: 10x10 ‘3 E.g.: 1000x1000 image 
100M parameters IE aaa 100 Filters 
z Filter size: 10x10 
10K parameters 
Ranza Ron 
图 5-3 ”局 部 连接 (Z) 和 卷 积 操作 E) 
我 们 再 总 结 一 下 ,， 卷 积 神经 网 络 的 要 点 就 是 局 部 连接 (Local Connection ) WARF 


( Weight Sharing ) 和 池 化 层 ( Pooling ) 中 的 降 采 样 (Down-Sampling )。 其 中 ， 局 部 连接 
和 权 值 共享 降低 了 参数 量 , 使 训练 复杂 度 大 大 下 降 , 并 减轻 了 过 拟 合 。 同 时 权 值 共 骏 还 赋 
予 了 卷 积 网 络 对 平移 的 容忍 性 , 而 池 化 层 降 采样 则 进一步 降低 了 输出 参数 量 , 并 赋 闻 模型 
对 轻 度 形变 的 容忍 性 ， 提 高 了 模型 的 泛 化 能 力 。 卷 积 神经 网 络 相 比 传统 的 机 器 学 习 算 法 ， 
无 须 手工 提取 特征 ， 也 不 需要 使 用 诸如 SIFT 之 类 的 特征 提取 算法 ， 可 以 在 训练 中 目 动 完 
成 特征 的 提取 和 抽象 , 并 同时 进行 模式 分 类 , 大 大 降低 了 应 用 图 像 识别 的 难度 ; 相 比 一 般 
的 神经 网 络 ，CNN 在 结构 上 和 图 片 的 空间 结构 更 为 贴近 ， 都 是 2D 的 有 联系 的 结构 ， 并 
E CNN 的 卷 积 连接 方式 和 人 的 视觉 神经 处 理光 信号 的 方式 类 似 。 


大 名 昂昂 的 LeNet5 诞生 于 1994 年 ， 是 最 早 的 深层 卷 积 神经 网 络 之 一 ， 并 且 推 动 了 
深度 学 习 的 发 展 。 从 1988 年 开始 ， 在 多 次 成 功 的 迭代 后 ， 这 项 由 Yann LeCun 完成 的 开 
拓 性 成 果 被 命名 为 LeNet5。LeCun 认为 ， 可 训练 参数 的 卷 积 层 是 一 种 用 少量 参数 在 图 像 
的 多 个 位 置 上 提取 相似 特征 的 有 效 方式 ,这 和 直接 把 每 个 像素 作为 多 层 神经 网 络 的 输入 不 
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同 。 像 素 不 应 该 被 使 用 在 输入 层 , 因为 图 像 具 有 很 强 的 空间 相关 性 ， 而 使 用 图 像 中 独立 的 
像素 直接 作为 输入 则 利用 不 到 这 些 相关 性 。 


LeNetS 当时 的 特性 有 如 下 几 点 。 


。 每 个 卷 积 层 包含 三 个 部 分 : 卷 积 、 池 化 和 非 线性 激活 函数 
。 使 用 卷 积 提取 空间 特征 

© 降 采 样 ( Subsample ) 的 平均 池 化 层 ( Average Pooling ) 

e 双 曲 正切 (Tanh ) Bk S 型 (Sigmoid ) 的 激活 基数 

© MLP 作为 最 后 的 分 类 器 

o 层 与 层 之 间 的 黎 琉 连接 减少 计算 复杂 度 


LeNetS 中 的 诸多 特性 现在 依然 在 state-of-the-art 卷 积 神经 网 络 中 使 用 , 可 以 说 LeNet5 
是 黄 定 了 现代 卷 积 神经 网 络 的 基石 之 作 。Lenet-5 的 结构 如 图 5-4 所 示 。 它 的 输入 图 像 为 
32x32 的 灰 度 值 图 像 , 后 面 有 三 个 卷 积 层 , 一 个 全 连接 层 和 一 个 高 斯 连接 层 。 它 的 第 一 个 
卷 积 层 Cl 包含 6 个 卷 积 核 ， 卷 积 核 尺 寸 为 Sx5， 即 总 共 ( 5x5+1 ) x6=156 个 参数 ， 括 号 
中 的 1 代表 1 个 bias， 后 面 是 一 个 2x2 的 平均 池 化 层 s2 用 来 进行 降 采 样 ， 再 之 后 是 一 个 
Sigmoid 激 活水 数 用 来 进行 非 线 性 处 理 。 而 后 是 第 二 个 卷 积 层 C3, 同 样 卷 积 核 尺 寸 是 5x5， 
这 里 使 用 了 16 个 卷 积 核 ， 对 应 16 个 Feature Map。 需 要 注意 的 是 ， 这 里 的 16 个 Feature 
Map 不 是 全 部 连接 到 前 面 的 6 个 Feature Map 的 输出 的 ,有 些 只 连接 了 其 中 的 几 个 Feature 
Map, 这 样 增加 了 模型 的 多 样 性 。 下 面 的 第 二 个 池 化 层 S4 和 第 一 个 池 化 层 S2 一 致 ， 都 是 
2x2 的 降 采 样 。 接 下 来 的 第 三 个 卷 积 层 C5 有 120 个 卷 积 核 ， 卷 积 大 小 同样 为 5x5， 因 为 
输入 图 像 的 大 小 刚好 也 是 5x5， 因 此 构成 了 全 连接 ， 也 可 以 算 作 全 连接 层 。F6 层 是 一 个 
ERE, 拥有 84 个 隐 仿 节点， 激活 函数 为 Sigmoid。LeNet-5 最 后 一 层 由 欧式 径 向 基因 
数 (Euclidean Radial Basis Function) 单元 组 成 ， 它 输出 最 后 的 分 类 结果 。 


C3 f. maps 16@10x10 
INPUT C1: feature maps seem SA: f maps 16@5x5 
6@28x28 
32x32 2 






S21 maps - CS. la 
6@14x14 T= r Sarar pikar ares 





Convolutions Subsampling Convolutons Subsampiing Full connection 


5-4 LeNet-5 结构 示意 图 
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5.2 TensorFlow 实现 简单 的 卷 积 网 络 


本 证 将 讲解 如 何 使 用 TensorFlow 实现 一 个 简单 的 卷 积 神经 网 络 ， 使 用 的 数据 集 依然 
是 MNIST， 预 期 可 以 达到 99.2% 左 右 的 准确 率 。 本 节 将 使 用 两 个 卷 积 层 加 一 个 全 连接 层 
构建 一 个 简单 但 是 非常 有 代表 性 的 卷 积 神经 网 络 ,读者 应 该 能 通过 这 个 例子 掌握 设计 卷 积 
神经 网 络 的 要 点 。 


首先 载 入 MNIST 数据 集 ， 并 创建 默认 的 Interactive Session。 本 节 代 码 主要 来 自 
TensorFlow 的 开源 实现 和!。 


from tensorflow.examples.tutorials.mnist import input data 
import tensorflow as tf 
mnist = input_data.read_data_sets("MNIST data/", one_hot=True) 


sess = tf.InteractiveSession() 


接 下 来 要 实现 的 这 个 卷 积 神经 网 络 会 有 很 多 的 权重 和 偏 置 需要 创建 ,因此 我 们 先 定义 
好 初始 化 函数 以 便 重 复 使 用 。 我们 需要 给 权重 制造 一 些 随机 的 噪声 来 打破 完全 对 称 , 比如 
截断 的 正 态 分 布 噪声 ， 标 准 差 设 为 0.1。 同 时 因为 我 们 使 用 ReLU， 也 给 偏 置 增加 一 些小 
的 正 值 (0.1 ) ARRITI N (dead neurons )。 


def weight_variable(shape): 
initial = tf.truncated_normal(shape, stddev=@.1) 


return tf.Variable(initial) 


def bias_variable(shape) : 
initial = tf.constant(@.1, shape=shape) 


return tf.Variable(initial) . 


卷 积 层 、 池 化 层 也 是 接 下 来 要 重复 使 用 的 , 因此 也 为 他 们 分 别 定义 创建 函数 。 这 里 的 
tf.nn.conv2d 是 TensorFlow 中 的 2 维 卷 积 函数 ， 参 数 中 x 是 输入 ，W 是 卷 积 的 参数 ， 比 如 
[5,5,1,32]: 前 面 两 个 数字 代表 卷 积 核 的 尺寸 ; 第 三 个 数字 代表 有 多 少 个 channel。 因 为 我 
们 只 有 灰 度 单 色 ， 所 以 是 1， 如 果 是 彩色 的 RGB 图 片 ， 这 里 应 该 是 3。 最 后 一 个 数字 代 
表 卷 积 核 的 数量 ， 也 就 是 这 个 卷 积 层 会 提取 多 少 类 的 特征 。Strides 代表 卷 积 模板 移动 的 
步 长 ， 都 是 1 代表 会 不 遗漏 地 划 过 图 片 的 每 一 个 点 。Padding 代表 边界 的 处 理 方式 ， 这 里 
的 SAME 代表 给 边界 加 上 Padding 让 卷 积 的 输出 和 输入 保持 同样 (SAME ) 的 尺寸 。 
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tf.nn.max_pool 是 TensorFlow 中 的 最 大 池 化 函数 , 我 们 这 里 使 用 2x2 的 最 大 池 化 ， 即 将 一 
个 2x2 的 像素 块 降 为 1x1 的 像素 。 最 大 池 化 会 保留 原始 像素 块 中 灰 度 值 最 高 的 那 一 个 像 
素 ， 即 保留 最 显著 的 特征 。 因 为 希望 整体 上 缩小 图 片 尺 寸 ， 因 此 池 化 层 的 strides 也 设 为 
横竖 两 个 方向 以 2 为 步 长 。 如 果 步 长 还 是 1， 那 么 我 们 会 得 到 一 个 尺寸 不 变 的 图 片 。 


def conv2d(x, W): 
return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME') 


def max_pool_2x2(x): 
return tf.nn.max_pool(x, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], 
padding='SAME' ) 


在 正式 设计 卷 积 神经 网 络 的 结构 之 前 ， 先 定义 输入 的 placeholder，x 是 特征 ，y_ 是 真 
实 的 label。 因 为 卷 积 神经 网 络 会 利用 到 空间 结构 信息 ， 因 此 需要 将 1D 的 输入 向 量 转 为 
2D 的 图 片 结构 ， 即 从 1x784 的 形式 转 为 原始 的 28x28 的 结构 。 同 时 因为 只 有 一 个 颜色 通 
Ñ, 故 最 终 尺 寸 为 [-1,28,28,1]， 前 面 的 -1 代表 样本 数量 不 固定 , 最 后 的 1 代表 颜色 通道 数 
量 。 这 里 我 们 使 用 的 tensor 变形 函数 是 tf.reshape。 

x = tf.placeholder(tf.float32, [None, 784]) 
y_ = tf.placeholder(tf.float32, [None, 10]) 
x_image = tf.reshape(x, [-1,28,28,1]) 


接 下 来 定义 我 们 的 第 一 个 卷 积 层 。 我 们 先 使 用 前 面 写 好 的 函数 进行 参数 初始 化 , 包括 
weights 和 bias, 这 里 的 [5,5,1,32] 代 表 卷 积 核 尺 寸 为 5x5，1 个 颜色 通道 ，32 个 不 同 的 卷 积 
核 。 然 后 使 用 conv2d 函数 进行 卷 积 操作 ， 并 加 上 偏 置 ， 接 着 再 使 用 ReLU 激活 函数 进行 
非 线性 处 理 。 最 后 ， 使 用 最 大 池 化 函数 max_pool 2x2 对 卷 积 的 输出 结果 进行 池 化 操作 。 


W_convi = weight_variable([5, ce 1; 32]) 
b_convi = bias _variable([32]) 
h_convi = tf.nn.relu(conv2d(x_image, W_conv1) + b_conv1) 


h_pooli = max_pool_2x2(h_conv1) 

现在 定义 第 二 个 卷 积 层 , 这 个 卷 积 层 基本 和 第 一 个 卷 积 层 一 样 , 唯一 的 不 同 是 , BR 
核 的 数量 变 成 了 64， 也 就 是 说 这 一 层 的 卷 积 会 提取 64 种 特征 。 
W_conv2 = weight_variable([5, 5, 32, 64]) 
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b_conv2 = bias_variable([64]) 
h_conv2 = tf.nn.relu(conv2d(h_pooli, W_conv2) + b_conv2) 
h_pool2 = max_pool_2x2(h_conv2) 


因为 前 面 经 历 了 两 次 步 长 为 2x2 的 最 大 池 化 , 所 以 边 长 已 经 只 有 14 T, 图 片 尺 寸 由 
28x28 变 成 了 7x7。 而 第 二 个 卷 积 层 的 卷 积 核 数量 为 64, 其 输出 的 tensor 尺 寸 即 为 7x7x64。 
我 们 使 用 tfhreshape 函数 对 第 二 个 卷 积 层 的 输出 tensor 进行 变形 ， 将 其 转 成 1D 的 向 量 ， 
然后 连接 一 个 全 连接 层 ， 隐 含 节 点 为 1024， 并 使 用 ReLU 激活 函数 。 


W_fcl = weight_variable([7 * 7 * 64, 1024]) 





b fcl = bias variable([1024]) 
h_pool2 flat = tf.reshape(h_pool2, [-1, 7*7*64]) 
h_fc1 = tf.nn.relu(tf.matmul(h_pool2_ flat, W_fc1) + b_fc1) 


为 了 减轻 过 拟 合 ， 下 面 使 用 一 个 Dropout E, Dropout 的 用 法 第 4 章 已 经 讲 过 ， 是 通 
FAY 


过 一 个 ask 传 入 keep_prob 比率 来 控制 的 。 在 训练 时 , 我 们 随机 丢弃 一 部 分 节点 也 | 
数据 来 减轻 过 ， 预 测 时 则 保留 全 部 数据 来 追求 最 好 的 预测 性 能 。 7 


keep_prob = tf.placeholder(tf.float32) 
h_fci_drop = tf.nn.dropout(h_fc1, keep prob) 
最 后 我 们 将 Dropout 层 的 输出 连接 一 个 Softmax 层 ， 得 到 最 后 的 概率 输出 。 


W fc2 = weight_variable([1024, 10]) 
b fc2 = bias variable([16]) 
y_conv=tf.nn.softmax(tf.matmul(h_fc1_drop, W fc2) + b fc2) 


我 们 定义 损失 水 数 为 cross entropy, 和 之 前 一 样 ， 但 是 优化 天 和 使 用 Adam, He aT 
个 比较 小 的 学 习 速 率 le-4。 


cross entropy = tf.reduce mean(-tf.reduce sum(y_ * tf.log(y_conv), 
reduction_indices=[1])) 


train step = tf.train.AdamOptimizer(1e-4) .minimize(cross_ entropy) 


再 继续 定义 评测 准确 率 的 操作 ， 这 里 和 第 3 章 、 第 4 章 一 样 。 


correct_prediction = tf.equal(tf.argmax(y_conv,1), tf.argmax(y_,1)) 


accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32) ) 
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下 面 开 始 训练 过 程 。 首 先 依 然 是 初始 化 所 有 人 参数， 设置 如 练 时 Dropout 的 keep_prob 
比率 为 0.5。 然 后 使 用 大 小 为 50 的 mini-batch， 共 进行 20000 次 训练 迭代， 参与 训练 的 样 
本 数量 总 共 为 100 万 。 其 中 每 100 次 训练 ,我 们 会 对 准确 率 进 行 一 次 评测 (评测 时 keep_prob 
设 为 1 )， 用 以 实时 监测 模型 的 性 能 。 
tf.global variables initializer().run() 
for i in range(20000) : 

batch = mnist.train.next_batch(5@) 

if 14100 == 0: 

train_accuracy = accuracy.eval(feed_dict={x:batch[@], y_: batch[1], 
| | keep_prob: 1.0}) 
print("step %d, training accuracy %g"%(i, train_accuracy)) 


train_step.run(feed_dict={x: batch[@], y_: batch[1], keep prob: @.5}) 


全 部 训练 完成 后 ， 我 们 在 最 终 的 测试 集 上 进行 全 面 的 测试 ， 得 到 整体 的 分 类 准确 率 。 


print("test accuracy %g"%accuracy.eval(feed dict={ 


x: mnist.test.images, y_: mnist.test.labels, keep prob: 1.0})) 


最 后 ， 这 个 CNN 模型 可 以 得 到 的 准确 率 约 为 99.2%， 基 本 可 以 满足 对 手写 数字 识别 
准确 率 的 要 求 。 相 比 之 前 MLP 的 2% 错 误 率 ，CNN 的 错误 率 下 降 了 大 约 60%。 这 其 中 主 
要 的 性 能 提升 都 来 自 于 更 优秀 的 网 络 设计 , 即 卷 积 网 络 对 图 像 特征 的 提取 和 抽象 能 力 。 依 
靠 卷 积 核 的 权 值 共享 ，CNN 的 参数 量 并 没有 爆炸 ， 降 低 计 算 量 的 同时 也 减轻 了 过 拟 合 ， 
因此 整个 模型 的 性 能 有 较 大 的 提升 。 本 节 我 们 只 实现 了 一 个 简单 的 卷 积 神经 网 络 , RAR 
杂 的 Tricko 接 下 来 , 我 们 将 实现 一 个 稍微 复杂 一 些 的 卷 积 网 络 ， 而 简单 的 MNIST 数据 集 

经 不 适合 用 来 评测 其 性 能 ， 我 们 将 使 用 CIFAR-10” 数 据 集 进 行 训 练 ， 这 也 是 深度 学 习 
可 以 大 幅 领 先 其 他 模型 的 一 个 数据 集 。 


5.3 TensorFlow 实现 进 阶 的 卷 积 网 络 


本 节 使 用 的 数据 集 是 CIFAR-10， 这 是 一 个 经 典 的 数据 集 ， 包 仿 60000 5K 32x32 的 彩 
色 图 像 ， 其 中 训练 集 50000 张 ， 测 试 集 10000 张 。CIFAR-10 如 同 其 名 字 ， 一 共 标 注 为 10 
类 , 每 一 类 图 片 6000 张 。 这 10 类 分 别 是 airplane、automobile、 bird, cat, deer, dog, frog, 
horse, ship 和 truck， 其 中 没有 任何 重合 的 情 宫 ， 比 如 automobile 只 包括 小 型 汽车 ，truck 


83 4 
wwaibbt.com TUOAOFO0 0 





证 TensorFlow 实战 


只 包括 卡车 ， 也 不 会 在 一 张 图 片 中 同时 出 现 两 类 物体 。 它 还 有 一 个 兄弟 版 本 CIFAR-100, 
其 中 标注 了 100 类 。 这 两 个 数据 集 是 前 面 章节 提 到 的 深度 学 习 之 父 Geoffrey Hinton 和 他 
i piis Alex Krizhevsky 和 Vinod Nair 收集 的 ， 图 片 来 源 于 80 million tiny images” 

个 数据 集 ，Hinton 等 人 对 其 进行 了 篇 选 和 标注 。CIFAR-10 Suess Ri, AE 
eo 行 性 能 对 比 ， 也 曾 出 现在 Kagge 竞赛 而 为 大 家 所 知 。 图 5-5 
所 示 为 这 个 数据 集 的 一 些 示例 。 


airplane 
automobile 
bird 

cat 

deer 

dog 

frog 

horse 


ship 





truck 


5-5 CIFAR-10 数据 集 示例 


a manna 测试 ， 目 前 state-of-the-art 的 工作 已 经 可 以 达到 
3.5% 的 错误 率 了 ， 但 是 需要 训练 很 入 ， 即 使 在 GPU 上 也 需要 十 几 个 小 时 。CIFAR-10 数 
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据 集 上 详细 的 Benchmark 和 排名 在 classification datasets results 上 ( http://rodrigob.github. 
io/are we there yet/build/classification datasets_ results.html )。 据 深度 学 习 三 巨头 之 一 LeCun 
说 , 现 有 的 卷 积 神经 网 络 已 经 可 以 对 CIFAR-10 进行 很 好 的 学 习 ， 这 个 数据 集 的 问题 已 经 
解决 了 。 本 节 中 实现 的 卷 积 神经 网 络 没有 那么 复杂 ( 根据 Alex fHZKAY cuda-convnet 模型 
做 了 些许 修改 得 到 )， 在 只 使 用 3000 个 batch (每 个 batch 包含 128 个 样本 ) 时 ， 可 以 达 
到 73% 左 右 的 正确 率 。 模 型 在 GTX 1080 单 显 卡 上 大 概 只 需要 几 十 秒 的 训练 时 间 ， 如 果 
在 CPU 上 训练 则 会 慢 很 多 。 如 果 使 用 100k 个 batch, 并 结合 学 习 速 度 的 decay ( 即 每 隔 一 
段 时 间 将 学 习 速 率 下 降 一 个 比率 )， 正 确 率 最 高 可 以 到 86% 左 右 。 模 型 中 需要 训练 的 参数 
约 为 100 万 个 ， 而 预测 时 需要 进行 的 四 则 运算 总 量 在 2000 万 次 左右 。 在 这 个 卷 积 神经 网 
络 模型 中 ， 我 们 使 用 了 一 些 新 的 技巧 。 


(1) 对 weights #77 T L2 的 正则 化 。 
(2 ) 如 图 5-6 所 示 , 我 们 对 图 片 进行 了 翻转 、 随 机 藤 切 等 数据 增强 , 制造 了 更 多 样本 。 
(3) 在 每 个 卷 积 -最 大 池 化 层 后 面 使 用 了 LRN 层 ， 增 强 了 模型 的 泛 化 能 力 。 


Data Augmentation: 


a. No augmentation (= | image) 





224x224 





图 5-6 数据 增强 示例 (水平 翻 转 ， 随 机 裁 切 ) 
我 们 首先 下 载 TensorFlow Models 库 ， 以 便 使 用 其 中 提供 CIFAR-10 数据 的 类 。 


git clone https: //github.com/tensorflow/models.git 


cd models/tutorials/image/cifar19 
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然后 我 们 载 入 一 些 常 用 库 ， 比 如 NumPy 和 time, HA TensorFlow Models 中 自动 
下 载 、 读 取 CIFAR-10 数据 的 类 。 本 节 代 码 主要 来 自 TensorFlow 的 开源 实现 “。 


import cifar16,cifar16 input 
import tensorflow as tf 
import numpy as np 


import time 


接着 定义 batch size、 训 练 轮 数 max _ steps， 以 及 下 载 CIFAR-10 数据 的 默认 路 径 。 
max_steps = 3000 
batch size = 128 
data dir = '/tmp/cifar10@ data/cifar-10-batches-bin' 


这 里 定义 初始 化 weight 的 函数 ， 和 之 前 一 样 依然 使 用 给 truncated_normal 截断 的 正 态 
分 布 来 初始 化 权重 。 但 是 这 里 会 给 weight 加 一 个 L2 的 loss， 相 当 于 做 了 一 个 L2 的 正则 
化 处 理 。 在 机 器 学 习 中 , 不 管 是 分 类 还 是 回归 任务 ,都 可 能 因 特 征 过 多 而 导致 过 拟 合 , 一 
般 可 以 通过 减少 特征 或 者 惩 避 不 重要 特征 的 权重 来 缓解 这 个 问题 。 但 是 通 贡 我 们 并 不 知 赴 
该 惩罚 哪些 特征 的 权重 , 而 正则 化 就 是 帮助 我 们 惩罚 特征 权重 的 , 即 特征 的 权重 也 会 成 为 
模型 的 损失 隙 数 的 一 部 分 。 可 以 理解 为 , 为 了 使 用 有 某 个 特征 , 我 们 需要 付出 loss 的 代价 ， 
除非 这 个 特征 非 党 有效， 否则 就 会 被 loss 上 的 增加 获 盖 效果 。 这 样 我 们 就 可 以 沛 选 出 最 
有 效 的 特征 ,减少 特征 权重 防止 过 拟 合 。 这 也 即 是 奥 卡 姆 剃刀 法 则 , 越 简单 的 东西 越 有 效 。 
一 般 来 说 ，L1 正则 会 制造 稀 纹 的 特征 ， 大 部 分 无 用 特征 的 权重 会 被 置 为 0， 而 L2 正则 会 
让 特征 的 权重 不 过 大 ， 使 得 特征 的 权重 比较 平均 。 我 们 使 用 wl 控制 L2 loss 的 大 小 ,使 
FA tf.nn.12_loss 函数 计算 weight 的 L2 loss, 由 使 用 给 multiply 让 L2 loss HVA wl, 得 到 最 
后 的 weight loss。 接 着 ,我 们 使 用 tf.add to_collection 把 weight loss 统一 存 到 一 个 collection ， 
这 个 collection 名 为 “losses”， 它 会 在 后 面 计 算 神经 网 络 的 总 体 loss 时 被 用 上 。 
def variable with weight loss(shape, stddev, wl): 

var = tf.Variable(tf.truncated_normal(shape, stddev=stddev) ) 

if wl is not None: 

weight_loss = tf.multiply(tf.nn.12_loss(var),wl,name='weight_loss' ) 
tf.add_to_collection('losses', weight_loss) 


return var 


下 面 使 用 cifar10 类 下 载 数据 集 ， 并 和 解压、 展开 到 其 默认 位 置 。 
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cifar10.maybe_download_and_extract() 


再 使 用 cifar10_input 类 中 的 distorted_inputs 函数 产生 训练 需要 使 用 的 数据 , 包括 特征 
及 其 对 应 的 label， 这 里 返回 的 是 已 经 封装 好 的 tensor， 每 次 执行 都 会 生成 一 个 batch_size 
的 数量 的 样本 。 需 要 注意 的 是 我 们 对 数据 进行 了 Data Augmentation ( 数据 增强 )。 具 体 的 
实现 细节 ， 读 者 可 以 查看 cifar10 input.distorted inputs 函数 ， 其 中 的 数据 增强 操作 包括 随 
机 的 水 平 翻转 ( tfimage.random flip left right )、 随 机 剪 切 一 块 24x24 大 小 的 图 片 
( tf.random crop ) 、 设 置 随机 的 亮度 和 对 比 度 ( tfimage.random brightness 、 
tf.image.random_contrast )， 以 及 对 数据 进行 标准 化 thimage.per image whitening ( 对 数据 
减 去 均值 ， 除 以 方差 ， 保 证 数据 零 均 值 ， 方 差 为 1 )。 通 过 这 些 操作 ， 我 们 可 以 获得 更 多 
的 样本 市 噪声 的 )， 原 来 的 一 张 图 片 样本 可 以 变 为 多 张 图 片 ， 相 当 于 扩大 样本 量 ， 对 提 
高 准确 率 非常 有 和 帮助。 需要 注意 的 是 , 我 们 对 图 像 进行 数据 增强 的 操作 需要 耗费 大 量 CPU 
时 间 ,因此 distorted inputs 使 用 了 16 个 独立 的 线程 来 加 速 任务 ,函数 内 部 会 产生 线程 池 ， 
在 需要 使 用 时 会 通过 TensorFlow queue 进行 调度 。 


images_train, labels train = cifar16_input.distorted inputs( 


data_dir=data_dir, batch _size= batch size) 


我 们 再 使 用 cifar10 input.inputs 函数 生成 测试 数据 ， 这 里 不 需要 进行 太 多 处 理 ， 不 需 
要 对 图 片 进行 翻转 或 修改 亮度 、 对比度 , 不 过 需要 裁剪 图 片 正中 间 的 24x24 大 小 的 区 块 ， 
并 进行 数据 标准 化 操作 。 
images test, labels test = cifari@_input.inputs(eval_data=True, 
data_dir=data_dir, | 


batch_ size= batch _size) 


这 里 创建 输入 数据 的 placeholder， 包 括 特 征 和 label, EWE placeholder 的 数据 尺寸 
时 需要 注意 ,因为 batch_ size 在 之 后 定义 网 络 结构 时 被 用 到 了 ,所 以 数据 尺寸 中 的 第 一 个 
值 即 样 本 条 数 需 要 被 预先 设 定 ， 而 不 能 像 以 前 一 样 可 以 设 为 None。 而 数据 尺寸 中 的 图 片 
尺寸 为 24x24， 即 是 裁剪 后 的 大 小 ， 而 颜色 通道 数 则 设 为 3， 代 表 图 片 是 彩色 有 RGB 三 
条 通道 。 
image holder = tf.placeholder(tf.float32, [batch size, 24, 24, 3]) 
label holder = tf. placeholder(tf. int32, [batch_ size]) 


做 好 了 准备 工作 ， 接 下 来 开始 创建 第 一 个 卷 积 层 。 先 使 用 之 前 写 好 的 
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variable _with_weight_loss 函数 创建 卷 积 核 的 参数 并 进行 初始 化 。 第 一 个 卷 积 层 使 用 5x5 
的 卷 积 核 大 小 ,3 个 颜色 通道 ,64 个 卷 积 核 , 同 时 设置 weight 初始 化 函数 的 标准 差 为 0.05。 
我 们 不 对 第 一 个 卷 积 层 的 weight 进行 L2 的 正则 ， 因 此 wl (weight loss) 这 一 项 设 为 0。 
下 面 使 用 tf.nn.conv2d 函数 对 输入 数据 image holder 进行 卷 积 操作 ， 这 里 的 步 长 stride 均 
设 为 1,padding 模式 为 SAME。 把 这 层 的 bias 全 部 初始 化 为 0, 再 将 卷 积 的 结果 加 上 bias, 
最 后 使 用 一 个 ReLU 激活 函数 进行 非 线性 化 。 在 ReLU 激活 函数 之 后 , 我 们 使 用 一 个 尺寸 
为 3x3 且 步 长 为 2x2 的 最 大 池 化 层 处 理 数据 ， 注 意 这 里 最 大 池 化 的 尺寸 和 步 长 不 一 致 ， 
这 样 可 以 增加 数据 的 丰富 性 。 再 之 后 , 我 们 使 用 tnn.lm 函数 , 即 LRN 对 结果 进行 处 理 。 
LRN 最 早 见 于 Alex 那 篇 用 CNN 参加 ImageNet 比赛 的 论文 ，Alex 在 论文 中 解释 LRN E 
模仿 了 生物 神经 系统 的 “ 侧 抑制 ”机 制 ， 对 局 部 神经 元 的 活动 创建 竞争 环境 ,使 得 其 中 员 
应 比较 大 的 值 变 得 相对 更 大 ， 并 抑制 其 他 反馈 较 小 的 神经 元 ， 增 强 了 模型 的 汉化 能 力 。 
Alex 在 ImageNet 数 据 集 上 的 实验 表明 ,使 用 LRN 后 CNN 在 Top1l 的 错误 率 可 以 降低 1.4%， 
因此 在 其 经 典 的 AlexNet 中 使 用 了 LRN 层 。LRN 对 ReLU 这 种 没有 上 限 边 界 的 激活 函数 
会 比较 有 用 ， 因 为 它 会 从 附近 的 多 个 卷 积 核 的 响应 〈Response ) 中 挑选 比较 大 的 反馈 , 但 
不 适合 Sigmoid 这 种 有 固定 边界 并 且 能 抑制 过 大 值 的 激活 函数 。 
weight1 = variable with weight loss(shape=[5，5，3，64]，stddev=5e-2， 
wl=0.0) 

kernel1 = tf.nn.conv2d(image holder, weight1, [1, 1, 1, 1], padding='SAME') 
bias1 = tf.Variable(tf.constant(@.@, shape=[64])) 
convi = tf.nn.relu(tf.nn.bias_add(kerneli1, bias1)) 
pool1 = tf.nn.max_pool(convi, ksize=[1, 3, 3, 1], strides=[1, 2, 2, 1], 

padding='SAME' ) 
norm1 = tf.nn.irn(pooli1, 4, bias=1.0, alpha=0.001 / 9.0, beta=0.75) 


现在 来 创建 第 二 个 卷 积 层 , 这 里 的 步骤 和 第 一 步 很 像 ， 区 别 如 下 。 上 一 层 的 卷 积 核 数 
量 为 64( 即 输出 64 个 通道 )， 所 以 本 层 卷 积 核 尺寸 的 第 三 个 维度 即 输入 的 通道 数 也 需要 
调整 为 64; 还 有 一 个 需要 注意 的 地 方 是 这 里 的 bias 值 全 部 初始 化 为 0.1, 而 不 是 0。 最 后 ， 
我 们 调换 了 最 大 池 化 层 和 LRN 层 的 顺序 ， 先 进行 LRN 层 处 理 ， 再 使 用 最 大 池 化 层 。 
weight2 = variable with _weight_loss(shape=[5, 5, 64, 64], stddev=5e-2, 

: wl=@.0) 
kernel2 = tf.nn.conv2d(norm1, weight2, [1, 1, 1, 1], padding="SAME’) 
bias2 = tf.Variable(tf.constant(@.1, shape=[64])) 
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conv2 = tf.nn.relu(tf.nn.bias add(kernel2, bias2)) 

norm2 = tf.nn.irn(conv2, 4, bias=1.0, alpha=@.001 / 9.0, beta=0.75) 

pool2 = tf.nn.max_pool(norm2, ksize=[1, 3, 3, 1], strides=[1, 2, 2, 1], 
padding='SAME' ) 


在 两 个 卷 积 层 之 后 , 将 使 用 一 个 全 连接 层 , 这 里 需要 先 把 前 面 两 个 卷 积 层 的 输出 结 
全 部 flatten， 使 用 tfreshape 函数 将 每 个 样本 都 变 成 一 维 向 量 。 我 们 使 用 get_shape AX, 
获取 数据 局 平 化 之 后 的 长 度 。 接 着 使 用 variable_ with_weight loss 前 数 对 全 连接 层 的 weight 
进行 初始 化 ， 这 里 隐 含 节点 数 为 384， 正 态 分 布 的 标准 差 设 为 0.04，bias 的 值 也 初始 化 为 
0.1。 需 要 注意 的 是 我 们 希望 这 个 全 连接 层 不 要 过 拟 合 ， 因 此 设 了 一 个 非 零 的 weight loss 
值 0.04， 让 这 一 层 的 所 有 参数 都 被 L2 正则 所 约束 。 最 后 我 们 依然 使 用 ReLU 激活 函数 进 
行 非 线 性 化 。 
reshape = tf.reshape(pool2, [batch size, -1]) 

dim = reshape.get shape()[1].value 

weight3 = variable with weight loss(shape=[dim, 384], stddev=0.04, wl=0.004) 
bias3 = tf.Variable(tf.constant(@.1, shape=[384])) 

local3 = tf.nn.relu(tf.matmul(reshape, weight3) + bias3) 


接 下 来 的 这 个 全 连接 层 和 前 一 层 很 像 ， 只 不 过 其 隐 含 节点 数 下 降 了 一 半 ， 只 有 192 
个 ， 其 他 的 超 参数 保持 不 变 。 
weight4 = variable with_weight_loss(shape=[384, 192], stddev=0.04, wl=0.004) 
bias4 = tf.Variable(tf.constant(@.1, shape=[192])) 
local4 = tf.nn.relu(tf.matmul(local3, weight4) + bias4) 


下 面 是 最 后 一 层 , 依然 先 创建 这 一 层 的 weight, 其 正 态 分 布 标准 差 设 为 上 一 个 隐 含 层 
的 市 点数 的 倒数 , 并 且 不 计 入 L2 的 正则 。 需 要 注意 的 是 , 这 里 不 像 之 前 那样 使 用 softmax 
输出 最 后 结果 ， 这 是 因为 我 们 把 softmax 的 操作 放 在 了 计算 loss 的 部 分 。 我 们 不 需要 对 
inference 的 输出 进行 softmax 处 理 就 可 以 获得 最 终 分 类 结果 ( 直接 比较 inference 输出 的 各 
类 的 数值 大 小 即 可 )， 计 算 softmax 主要 是 为 了 计算 loss， 因 此 softmax 操作 整合 到 后 面 是 
比较 合适 的 。 
weightS = variable with_weight_loss(shape=[192, 10], stddev=1/192.0, wl=0.0) 
bias5 = tf.Variable(tf.constant(@.@, shape=[10])) 
logits = tf.add(tf.matmul(local4, To biasS) 
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到 这 里 就 完成 了 整个 网 络 inference 的 部 分 。 梳 理 整个 网 络 结构 可 以 得 到 表 5-1。 从 上 
到 下 ， 依 次 是 整个 卷 积 神经 网 络 从 输入 到 输出 的 流程 。 可 以 观察 到 ， 其 实 设 计 CNN 主要 
就 是 安排 卷 积 层 、 池 化 层 、 全 连接 层 的 分 布 和 顺序 ， 以 及 其 中 超 参 数 的 设置 、Trick 的 使 
用 等 。 设 计 性 能 良好 的 CNN 是 有 一 定 规律 可 循 的 , 但 是 想 要 针对 茶 个 问题 设计 最 合适 的 
网 络 结构 ， 是 需要 大 量 实践 摸索 的 。 


conv] 
pool] 
norm] 
conv2 
norm2 
pool2 
local3 
local4 


logits 


Layer 名 称 


表 5-1 卷 积 神经 网 络 结构 表 
| ti 述 

卷 积 层 和 ReLU 激活 函数 
最 大 池 化 
LRN 
卷 积 层 和 ReLU 激活 函数 
LRN 
最 大 池 化 
全 连接 层 和 ReLU 激活 函数 
全 连接 层 和 ReLU 激活 函数 
模型 Inference 的 输出 结果 


完成 了 模型 inference 部 分 的 构建 ， 接 下 来 计算 CNN 的 loss。 这 里 依然 使 用 cross 
entropy, 需要 注意 的 是 我 们 把 softmax 的 计算 和 cross entropy loss 的 计算 合 在 了 一 起 , 即 
tf.nn.sparse softmax cross entropy_with logits。 这 里 使 用 ttreduce mean 对 cross entropy 
计算 均值 ,再 使 用 tadd to collection 把 cross entropy 的 loss 添 加 到 整体 losses HY collection 
中 。 最 后 ， 使 用 tadd n 将 整体 losses 的 collection 中 的 全 部 loss 求 和 ， 得 到 最 终 的 loss, 
其 中 包括 cross entropy loss， 还 有 后 两 个 全 连接 层 中 weight 的 L2 loss. 
def loss(logits, labels): 


labels = tf.cast(labels, tf.int64) 


cross entropy = tf.nn.sparse_softmax_cross_entropy_with_logits( 


logits=logits, labels=labels, name='cross entropy per example') 


cross entropy mean = tf.reduce_mean(cross_entropy, 


name='cross entropy') 


tf.add to collection('losses', cross_entropy_mean) 


return tf.add_n(tf.get_collection('losses'), name='total_loss') 
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接着 将 logits 节点 和 label placeholder 传 入 loss 函数 获得 最 终 的 loss。 


loss = loss(logits, label_holder) 


优化 圳 依然 选择 Adam Optimizer， 学 习 速 率 设 为 le-3。 


train op = tf.train.AdamOptimizer(1e-3).minimize(loss) 


使 用 tf.nn.in_top_k 函数 求 输出 结果 中 top k 的 准确 率 ， 默 认 使 用 top 1， 也 就 是 输出 
分 数 最 高 的 那 一 类 的 准确 率 。 


top k op = tf.nn.in_top k(logits, label_holder, 1) 


使 用 tf.InteractiveSession 创建 默认 的 session， 接 着 初始 化 全 部 模型 参数 。 


sess = tf.InteractiveSession() 


tf.global_ variables initializer().run() 


这 一 步 是 启动 前 面 提 到 的 图 片 数据 增强 的 线程 队列 ， 这 里 一 共 使 用 了 16 个 线程 来 进 
行 加 速 。 注 意 ， 如 果 这 里 不 启动 线程 ， 那 么 后 续 的 inference 及 训练 的 操作 都 是 无 法 开始 
的 。 


tf.train.start_queue_runners() 


现在 正式 开始 训练 。 在 每 一 个 step 的 训练 过 程 中 ， 我 们 需要 先 使 用 session 的 run X 
法 执行 images train, labels train 的 计算 ， 获 得 一 个 batch 的 训练 数据 ， 再 将 这 个 batch 的 
数据 传 入 train_op 和 loss 的 计算 。 我 们 记录 每 一 个 step 花费 的 时 间 ， 每 隔 10 个 step 会 计 
算 并 展示 当前 的 loss ,每 秒 钟 能 训练 的 样本 数量 ,以 及 训练 一 个 batch 数据 所 花费 的 时 间 ， 
这 样 就 可 以 比较 方便 地 监控 整个 训练 过 程 。 在 GTX 1080 上 ， 每 秒 钟 可 以 训练 大 约 1800 
个 样本 ， 如 果 batch size 为 128， 则 每 个 batch 大 约 需要 0.066s。 损 失 loss 在 一 开始 大 约 
为 4.6， 在 经 过 了 3000 步 训 练 后 会 下 降 到 1.0 附近 。 


for step in range(max_steps): 
start_time = time.time() 
image_batch,label_batch = sess.run([images train,labels train]) 
_, loss_value = sess.run([train_op, loss], 
feed_dict={image holder: image batch, label_holder:label_batch}) 


duration = time.time() - start_time 
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if step % 10 == 0: 
examples_per_sec = batch_size / duration 


sec_per_batch = float(duration) 


format_str=('step %d,loss=%.2f (%.1f examples/sec; %.3f sec/batch)') 


print(format_str % (step,loss_value,examples_per_sec,sec_per_batch)) 


接 下 来 评测 模型 在 测试 集 上 的 准确 率 。 测试 集 一 共有 10000 个 样本 , 但 是 需要 注意 的 
是 , 我 们 依然 要 像 训 练 时 那样 使 用 固定 的 batch size, 然后 一 个 batch 一 个 batch 地 输入 测 
试 数据 。 我 们 先 计 算 一 共 要 多 少 个 batch 才能 将 全 部 样本 评测 完 。 同 时 ,在 每 一 个 step 中 
使 用 session 的 run 方法 获取 images test, labels test 的 batch， 再 执行 top_k op 计算 模型 
在 这 个 batch AY top 1 上 预测 正确 的 样本 数 。 最 后 汇总 所 有 预测 正确 的 结果 ， 求 得 全 部 讽 
试 样本 中 预测 正确 的 数量 。 | 


num_examples = 10000 

import math 

num iter = int(math.ceil(num_examples / batch_size)) 

true_count = @ 

total sample count = num_iter * batch_size 

step = 

while step < num_iter: 
image batch,label_ batch = sess.run([images_test,labels_test]) 
predictions = sess.run([top_k_op],feed_dict={image holder: image_batch, 

| label holder:1label batch}) 

true count += np.sum(predictions) 


step += 1 


后 将 准确 率 的 评测 结果 计算 并 打印 出 来 。 


precision = true_count / total_sample_count 


print('precision @ 1 = %.3f' % precision) 


最 终 , 在 CIFAR-10 数据 集 上 , 通过 一 个 短 时 间 小 迭代 次 数 的 训练 ,可 以 达到 大 致 73% 
的 准确 率 。 持 续 增 加 max _steps， 可 以 期 望 准确 率 逐 渐 增 加 。 如 果 max_steps 比较 大 ， 则 
推荐 使 用 学 习 速 率 衰减 (decay ) 的 SGD 进行 训练 , 这 样 训练 过 程 中 能 达到 的 准确 率 峰 值 
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会 比较 高 , 大 致 接近 86%. 而 其 中 L2 正则 及 LRN 层 的 使 用 都 对 模型 准确 率 有 提升 作用 ， 
他 们 都 可 以 从 肝 些 方面 提升 模型 的 泛 化 性 。 


数据 增强 (Data Augmentation ) 在 我 们 的 训练 中 作用 很 大 ， 它 可 以 给 单 幅 图 增加 多 
个 副本 , 提高 图 片 的 利用 率 , 防止 对 某 一 张 图 片 结构 的 学 习 过 拟 合 。 这 刚好 是 利用 了 图 片 
数据 本 身 的 性 质 , 图 片 的 元 余 信 息 量 比较 大 , 因此 可 以 制造 不 同 的 噪声 并 让 图 片 依 然 可 以 
被 识别 出 来 。 如 果 神 经 网 络 可 以 克服 这 些 噪声 并 准确 识别 ， 那 么 它 的 泛 化 性 必然 会 很 好 。 
数据 增强 大 大 增加 了 样本 量 , 而 数据 量 的 大 小 恰恰 是 深度 学 习 最 看 重 的 , 深度 学 习 可 以 在 
图 像 识 别 上 领先 其 他 算法 的 一 大 因素 就 是 它 对 海量 数据 的 利用 效率 非常 高 。 用 其 他 算法 ， 
可 能 在 数据 量 大 到 一 定 程度 时 ,准确 率 就 不 再 上 升 了 ,而 深度 学 习 只 要 提供 足够 多 的 样本 ， 
准确 率 基本 可 以 持续 提升 , 所 以 说 它 是 最 适合 大 数据 的 算法 。 如 图 5-6 所 示 , 传统 的 机 器 
学 习 算 法 在 获取 了 一 定量 的 数据 后 , 准确 率 上 升 曲线 就 接近 瓶颈 , 而 神经 网 络 则 可 以 持续 
上 升 到 更 高 的 准确 率 才 接近 泪 颈 。 规 模 越 大 越 复 杂 的 神经 网 络 模型 , 可 以 达到 的 准确 率 水 
平 越 高 , 但 是 也 相应 地 需要 更 多 的 数据 才能 训练 好 , 在 数据 量 小 时 反而 容易 过 拟 合 。 我们 
可 以 看 到 Large NN 在 数据 量 小 的 时 候 ， 并 不 比 常 规 算法 好 , 直到 数据 量 持续 扩大 才 慢 慢 
超越 了 常规 算法 、Small NN 和 Medium NN， 并 在 最 后 达到 了 一 个 非常 高 的 准确 率 。 根 
据 Alex 在 cuda-convnet 上 的 测试 结果 ， 如 果 不 对 CIFAR-10 数据 使 用 数据 增强 ， 那 么 错 
误 率 最 低 可 以 下 降 到 17%; 使 用 数据 增强 后 ， 错 误 率 可 以 下 降 到 11% 左 右 ， 模 型 性 能 的 
提升 非常 显著 。 
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5-6 ”传统 机 器 学 习 算法 和 深度 学 习 在 不 同 数据 量 下 的 表现 
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从 本 章 的 例子 中 可 以 发 现 , 卷 积 层 一 般 需 要 和 一 个 池 化 层 连 接 , 卷 积 加 池 化 的 组 合 目 
前 已 经 是 做 图 像 识别 时 的 一 个 标准 组 件 了 。 卷 积 网 络 最 后 的 几 个 全 连接 层 的 作用 是 输出 分 
类 结果 , 前 面 的 卷 积 层 主 要 做 特征 提取 的 工作 , 直到 最 后 的 全 连接 层 才 开始 对 特征 进行 组 
合 匹配 , 并 进行 分 类 。 卷 积 层 的 训练 相对 于 全 连接 层 更 复杂 , 训练 全 连接 层 基 本 是 进行 一 
些 矩 阵 乘法 运算 ， 而 目前 卷 积 层 的 训练 基本 依赖 于 cuDNN 的 实现 ( 男 有 nervana 公司 的 
neon 也 占有 一 席 之 地 )。 其 中 的 算法 相对 复杂 ， 有 些 方法 (比如 Facebook 开源 的 算法 ) 
还 会 涉及 傅 里 时 变换 。 同 时 ， 卷 积 层 的 使 用 有 很 多 Trick， 除 了 本 章 提 到 的 方法 ， 实 际 上 
有 很 多 方法 可 以 防止 CNN 过 拟 合 ， 加 快 收敛 速度 或 者 提高 泛 化 性 ， 这 些 会 在 后 续 章 世 中 
讲解 。 
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本 章 将 介绍 4 种 经 典 的 卷 积 神经 网 络 , 分 别 是 AlexNet”、VGGNet í, Google Inception 
Net” 和 ResNet ， 这 4 种 网 络 依照 出 现 的 先后 顺序 排列 ， 深 度 和 复杂 度 也 依次 递 进 。 它 
们 分 别 获得 了 ILSVRC ( ImageNet Large Scale Visual Recognition Challenge ) ”比赛 分 
类 项 目的 2012 年 冠军 ( top-5 错误 率 16.4%, 使 用 额外 数据 可 达到 15.3%, 8 层 神 经 网 络 )、 
2014 年 亚军 ( top-5 错误 率 7.3%, 19 层 神 经 网 络 )，2014 年 冠军 (top-5 错误 率 6.7%, 22 
层 神 经 网 络 ) 和 2015 年 的 冠军 ( top-5 错误 率 3.57%, 152 层 神 经 网 络 )。 这 4 个 经 典 的 网 
络 都 在 各 自 的 年 代 率先 使 用 了 很 多 先进 的 卷 积 神经 网 络 结构 ,对 卷 积 网 络 乃至 深度 学 习 有 
非常 大 的 推动 作用 , 也 象征 了 卷 积 神经 网 络 在 2012 一 2015 这 四 年 间 的 快速 发 展 。 如 图 6-1 
所 示 ，ILSVRC 的 top-5 错误 率 在 最 近 几 年 取得 重大 突破 ， 而 主要 的 突破 点 都 是 在 深度 学 
习 和 卷 积 神经 网 络 , 成 绩 的 大 幅 提升 几乎 都 伴随 着 卷 积 神经 网 络 的 层 数 加 深 。 而 传统 机 器 
学 习 算 法 目前 在 ILSVRC 上 已 经 难以 追 上 深度 学 习 的 步伐 了 ， 以 至 于 逐渐 被 称 为 浅 层 学 
>] (Shallow Learing )。 目 前 在 ImageNet” 数据 集 上 人 眼 能 达到 的 错误 率 大 概 在 5.1%， 
这 还 是 经 过 了 大 量 训练 的 专家 能 达到 的 成 绩 ， 一 般 人 要 区 分 1000 种 类 型 的 图 片 是 比较 困 
难 的 。 而 ILSVRC 2015 年 冠军 一 一 152 Æ ResNet 的 成 绩 达 到 错误 率 3.57%, 已 经 超过 了 
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人 了 眼 ， 这 说 明 卷 积 神经 网 络 已 经 基本 解决 了 ImageNet 数据 集 上 的 图 片 分 类 问题 。 
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图 6-1 历届 ILSVRC 比赛 代表 性 模型 的 成 绩 及 其 神经 网 络 次 度 


前 面 提 到 的 计算 机 视觉 比赛 ILSVRC 使 用 的 数据 都 来 自 ImageNet， 如 图 6-2 所 示 。 

ImageNet m H F 2007 年 由 斯 坦 福 大 学 华人 教授 李 飞 飞 创 办 , 目标 是 收集 大 量 市 有 标注 信 

息 的 图 片 数 据 供 计算 机 视觉 模型 训练 。ImageNet 拥有 1500 万 张 标 注 过 的 高 清 图 片 ， 总 共 
as 22000 类 ， 其 中 约 有 100 万 张 标注 了 图 片 中 主要 物体 的 定位 边框 。ImageNet 项 目 最 
早 的 灵感 来 自 于 人 类 通过 视觉 学 习 世 界 的 方式 , 如 果 假 定 儿童 的 眼睛 是 生物 照相 机 , 他 们 
平均 每 200ms 就 拍照 一 次 (眼球 转动 一 次 的 平均 时 间 )， 那 么 3 岁 大 时 孩子 就 已 经 看 过 了 
上 亿 张 真实 世界 的 照片 ， 可 以 算得 上 是 一 个 非常 大 的 数据 集 。ImageNet 项 目下 载 了 互联 
网 上 近 10 亿 张 图 片 ， 使 用 亚马逊 的 土耳其 机 器 人 平台 实现 众 包 的 标注 过 程 ， 有 来 目 世界 
上 167 个 国家 的 近 5 万 名 工作 者 帮忙 一 起 筛选 、 标 注 。 
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图 6-2 ImageNet 数据 集 图 片 示 例 
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每 年 度 的 ILSVRC 比赛 数据 集中 大 概 拥有 120 万 张 图 片 ， 以 及 1000 类 的 标注 ， 是 
ImageNet 全 部 数据 的 一 个 子 集 。 比 赛 一 般 采 用 top-5 和 top-1 分 类 错误 率 作 为 模型 性 能 的 
评测 指标 , 图 6-3 所 示 为 AlexNet 识别 ILSVRC 数据 集中 图 片 的 情况 , 每 张 图 片 下 面 是 分 
类 预测 得 分 最 高 的 5 个 分 类 及 其 分 值 。 
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6-3 AlexNet 识别 ILSVRC 数据 集 的 top-5 分 类 


6.1 TensorFlow 实现 AlexNet 


2012 £, Hinton 的 学 生 Alex Krizhevsky 提出 了 深度 卷 积 神经 网 络 模 型 AlexNet， 它 
可 以 算是 LeNet 的 一 种 更 深 更 宽 的 版 本 。AlexNet 中 包含 了 几 个 比较 新 的 技术 点 ， 也 首次 
在 CNN 中 成 功 应 用 了 ReLU、Dropout 和 LRN 等 Trick。 同 时 AlexNet 也 使 用 了 GPU 进 
行 运算 加 速 ， 作 者 开源 了 他 们 在 GPU 上 训练 卷 积 神经 网 络 的 CUDA 代码 。AlexNet 包含 
了 6 亿 3000 万 个 连接 ，6000 万 个 参数 和 65 万 个 神经 元 ， 拥 有 5 个 卷 积 层 ， 其 中 3 个 卷 
积 层 后 面 连接 了 最 大 池 化 层 ， 最 后 还 有 3 个 全 连接 层 。AlexNet 以 显著 的 优势 赢得 了 竞争 
激烈 的 ILSVRC 2012 比赛 ，top-5 的 错误 率 降低 至 了 16.4%， 相 比 第 二 名 的 成 绩 26.2% 错 
误 率 有 了 巨大 的 提升 。AlexNet 可 以 说 是 神经 网 络 在 低谷 期 后 的 第 一 次 发 声 ， 确 立 了 深度 
学 习 (深度 卷 积 网 络 ) 在 计算 机 视觉 的 统治 地 位 ， 同 时 也 推动 了 深度 学 习 在 语音 识别 、 自 
然 语 言 处 理 、 强 化 学 习 等 领域 的 拓展 。 


AlexNet 将 LeNet 的 思想 发 扬 光 大 ,把 CNN 的 基本 原理 应 用 到 了 很 深 很 宽 的 网 络 中 。 
AlexNet 主要 使 用 到 的 新 技术 点 如 下 。 


(1) 成功 使 用 ReLU 作为 CNN 的 激活 函数 ， 并 验证 其 效果 在 较 深 的 网 络 超过 了 
Sigmoid， 成 功 解决 了 Sigmoid 在 网 络 较 深 时 的 梯度 弥散 问题 。 虽 然 ReLU 激活 函数 在 很 
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久之 前 就 被 提出 了 ， 但 是 直到 AlexNet 的 出 现 才 将 其 发 扬 光 大 。 


(2) 训练 时 使 用 Dropout 随机 忽略 一 部 分 神经 元 ， 以 避免 模型 过 拟 合 。Droponut BA 
单独 的 论文 论述 , 但 是 AlexNet 将 其 实用 化 ， 通 过 实践 证 实 了 它 的 效果 。 在 AlexNet HE 
要 是 最 后 几 个 全 连接 层 使 用 了 Dropout. 


| (3) 在 CNN 中 使 用 重合 的 最 大 池 化 。 此 前 CNN 中 普遍 使 用 平均 池 化 ，AlexNet 全 部 
使 用 最 大 池 化 , 避免 平均 池 化 的 模糊 化 效果 。 并 且 AlexNet 中 提出 让 步 长 比 池 化 核 的 信 寸 
小 ， 这 样 池 化 层 的 输出 之 间 会 有 重 登 和 有 覆盖 ， 提 升 了 特征 的 丰富 性 。 


(4) 提出 了 LRN 层 ， 对 局 部 神经 元 的 活动 创建 竞争 机 制 ， 使 得 其 中 响应 比较 大 的 值 
变 得 相对 更 大 ， 并 抑制 其 他 反馈 较 小 的 神经 元 ， 增 强 了 模型 的 泛 化 能 力 。 


(5 ) 使 用 CUDA 加 速 深度 卷 积 网 络 的 训练 ， 利用 GPU 强大 的 并 行 计 算 能 力 ， 处 理 神 
经 网 络 训 练 时 大 量 的 矩阵 运算 .AlexNet 使 用 了 两 块 GTX 580 GPU 进行 训练 ,单个 GTX 580 
只 有 3GB 显存 ， 这 限制 了 可 训练 的 网 络 的 最 大 规模 。 因 此 作者 将 AlexNet 分 布 在 两 个 GPU 
上 ,在 每 个 GPU 的 显存 中 储存 一 半 的 神经 元 的 参数 。 因 为 GPU 之 间 通 信 方 便 ， 可 以 互相 访 
HEF, 而 不 需要 通过 主机 内 存 , 所 以 同时 使 用 多 块 GPU 也 是 非常 高 效 的 。 同时 , AlexNet 
的 设计 让 GPU 之 间 的 通信 只 在 网 络 的 某 些 层 进 行 ， 控 制 了 通信 的 性 能 损耗 。 


(6) 数据 增强 ， 随 机 地 从 256x256 的 原始 图 像 中 截取 224x224 大 小 的 区 域 ( 以 及 水 
平 翻转 的 镜像 ), 相当 于 增加 了 (256-224)?x2=2048 倍 的 数据 量 。 如 果 没 有 数据 增强 , 仅 靠 
原始 的 数据 量 ， 参 数 众 多 的 CNN 会 陷入 过 拟 合 中 ,使 用 了 数据 增强 后 可 以 大 大 减轻 过 拟 
A, 提升 泛 化 能 力 。 进 行 预测 时 ， 则 是 取 图 卢 的 四 个 角 加 中 间 共 5 个 位 置 , 并 进行 左右 翻 
转 ， 一 共 获 得 10 张 图 片 ， 对 他 们 进行 预测 并 对 10 次 结果 求 均值 。 同 时 ，AlexNet 论文 中 
提 到 了 会 对 图 像 的 RGB 数据 进行 PCA 处 理 ,并 对 主 成 分 做 一 个 标准 差 为 0.1 的 高 斯 扰动 ， 
增加 一 些 噪声 ， 这 个 Trick 可 以 让 错误 率 再 下 降 1%。 


整个 AlexNet 有 8 个 需要 训练 参数 的 层 ( 不 包括 池 化 层 和 LRN 层 ), 前 5 层 为 卷 积 层 ， 
后 3 层 为 全 连接 层 , 如 图 6-4 所 示 。AlexNet 最 后 一 层 是 有 1000 类 输出 的 Softmax 层 用 作 
分 类 。 LRN 层 出 现 在 第 1 个 及 第 2 个 卷 积 层 后 ， 而 最 大 池 化 层 出 现 在 两 个 LRN 层 及 最 
后 一 个 卷 积 层 后 。ReLU 激活 函数 则 应 用 在 这 8 层 每 一 层 的 后 面 。 因 为 AlexNet 训练 时 使 
用 了 两 块 GPU, 因此 这 个 结构 图 中 不 少 组 件 都 被 拆 为 了 两 部 分 。 现 在 我 们 GPU 的 显存 可 
以 放下 全 部 模型 参数 ， 因 此 只 考虑 一 块 GPU 的 情况 即 可 。 
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6-4 AlexNet 的 网 络 结核 


AlexNet 每 层 的 超 参数 如 图 6-5 所 示 。 其 中 输入 的 图 片 尺 寸 为 224x224， 第 一 个 卷 积 
层 使 用 了 较 大 的 卷 积 核 尺 寸 11x11， 步 长 为 4， 有 %6 个 卷 积 核 ; 紧 接着 一 个 LRN 层 ; 然 
后 是 一 个 3x3 的 最 大 池 化 层 ， 步 长 为 2。 这 之 后 的 卷 积 核 尺 寸 都 比较 小 ， 都 是 5x5 或 者 
3x3 的 大 小 ， 并 且 步 长 都 为 1， 即 会 扫描 全 图 所 有 像素 ; 而 最 大 池 化 层 依然 保持 为 3x3, 
并 且 步 长 为 2。 我们 可 以 发 现 一 个 比较 有 意思 的 现象 , 在 前 几 个 卷 积 层 , 虽然 计算 量 很 大 ， 
但 参数 量 很 小 ,都 在 1M 左右 甚至 更 小 ， 只 占 AlexNet 总 参数 量 的 很 小 一 部 分 。 这 就 是 卷 
积 层 有 用 的 地 方 , 可 以 通过 较 小 的 参数 量 提取 有 效 的 特征 。 而 如 果 前 几 层 直接 使 用 全 连接 
层 ， 那 么 参数 量 和 计算 量 将 成 为 天 文 数 字 。 虽 然 每 一 个 卷 积 层 占 整个 网 络 的 参数 量 的 1% 
都 不 到 ， 但 是 如 果 去 掉 任 何 一 个 卷 积 层 ， 都 会 使 网 络 的 分 类 性 能 大 幅 地 下 降 。 
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6-5 AlexNet 每 层 的 超 参数 及 参数 数量 


因为 使 用 ImageNet 数据 集训 练 一 个 完整 的 AlexNet 耗 时 非常 长 ,因此 本 节 中 AlexNet 
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的 实现 将 不 涉及 实际 数据 的 训练 。 我 们 会 建立 一 个 完整 的 AlexNet 卷 积 神经 网 络 , 然后 对 
它 每 个 batch 的 前 馈 计 算 ( forward ) 和 反馈 计算 ( backward ) 的 速度 进行 测试 。 这 里 使 用 
随机 图 卢 数 据 来 计算 每 轮 前 饥 、 反 馈 的 平均 耗 时 。 有 兴趣 的 读者 , 可 以 目 行 下 载 ImageNet 
数据 并 使 用 本 书 构建 的 AlexNet 完成 训练 ， 并 在 测试 集 上 进行 测试 。 


首先 导入 几 个 接 下 来 会 用 到 的 几 个 系统 库 ， 包 括 datetime, math 和 time, HERA 
TensorFlow。 本 节 代 码 主 要 来 自 TensorFlow 的 开源 实现 。 


from datetime import datetime 
import math 
import time 


import tensorflow as tf 


这 里 设置 batch_size 为 32，num batches 为 100， 即 总 共 测 试 100 个 batch 的 数据 。 


batch size=32 
num_batches=160 


定义 一 个 用 来 显示 网 络 每 一 层 结构 的 函数 print_actications , 展示 每 一 个 卷 积 层 或 池 化 
层 输出 tensor 的 矿 寸 。 这 个 函数 接受 一 个 tensor 作为 输入 ， 并 显示 其 名 称 〈top.name ) 和 
tensor 尺寸 〈(tget shape.as list() )。 
def print_activations(t): 


print(t.op.name, ' ', t.get_shape().as_list()) 


接 下 来 设计 AlexNet 的 网 络 结构 。 我 们 先 定义 函数 inference, ERS images 作为 输 
A, 返回 最 后 一 层 pool5( 第 5 个 池 化 层 ) 及 parameters ( AlexNet 中 所 有 需要 训练 的 模型 
参数 )。 这 个 inference 函数 将 会 很 大 ,包括 多 个 卷 积 和 池 化 层 ， 因 此 下 面 将 拆 为 几 个 小 段 
分 别 讲 解 。 

首先 是 第 一 个 卷 积 层 conv1 ， 这 里 使 用 TensorFlow 中 的 name scope, iit with 
tfname_scope('convl') as scope 可 以 将 scope 内 生成 的 Variable 自动 命名 为 conv1/xxx, 便 
于 区 分 不 同 卷 积 层 之 间 的 组 件 。 然 后 定义 第 一 个 卷 积 层 ， 和 之 前 一 样 使 用 
tftruncated_normal 截断 的 正 态 分 布 函数 (标准 差 为 0.1 ) 初始 化 卷 积 核 的 参数 kernel, 4 
积 核 尺 寸 为 11x11, 颜色 通道 为 3, 卷 积 核 数量 为 64。 准 备 好 了 kernel, 再 使 用 tf.nn.conv2d 
对 输入 images 完成 卷 积 操作 ， 我 们 将 strides 步 长 设置 为 4x4 ( 即 在 图 片上 每 4x4 区 域 只 
取样 一 次 , 横向 间隔 是 4， 纵 向 间隔 也 为 4, 每 次 取样 的 卷 积 核 大 小 部 为 11x11 )，padding 
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模式 设 为 SAME。 将 卷 积 层 的 biases 全 部 初始 化 为 0, 再 使 用 tf.nn.bias add 将 conv Fil biases 
加 起 来 ， 并 使 用 激活 函数 tf.nn.relu 对 结果 进行 非 线 性 处 理 。 最 后 使 用 print_activations 将 
这 一 层 最 后 输出 的 tensor convl 的 结构 打印 出 来 , 并 将 这 一 层 可 训练 的 参数 kernel, biases 
添加 到 parameters FF o 


def inference(images): 


parameters = [] 


with tf.name_scope('conv1') as scope: 
kernel = tf.Variable(tf.truncated_normal([11, 11, 3, 64], 
dtype=tf.float32, stddev=1e-1), name='weights' ) 
conv = tf.nn.conv2d(images, kernel, [1, 4, 4, 1], padding= ‘SAME’ ) 
biases = tf.Variable(tf.constant(@.0, shape=[64], dtype=tf.float32), 
trainable=True, name='biases' ) 
bias = tf.nn.bias_add(conv, biases) 
conv1 = tf.nn.relu(bias, name=scope) 
print_activations(conv1) 


parameters += [kernel, biases] 


在 第 1 个 卷 积 层 后 再 添加 LRN 层 和 最 大 池 化 层 。 先 使 用 萎 nn.lm 对 前 面 输出 的 tensor 
convl 进行 LRN iy 这 里 使 用 的 depth radius 设 为 4, bias 设 为 1, alpha 为 0.001/9, beta 
为 0.75， 基 本 都 是 AlexNet 的 论文 中 的 推荐 值 。 不 过 目前 除了 AlexNet， 其 他 经 典 的 卷 积 
神经 网 络 模 型 基本 都 放弃 了 LRN (主要 是 效果 不 明显 )， 而 我 们 使 用 LRN 也 会 让 前 馈 、 
反馈 的 速度 大 大 下 降 ( 整体 速度 降 到 1/3 )， 读 者 可 以 目 主 选择 是 否 使 用 LRN。 下 面 使 用 
tf.nn.max_pool 对 前 面 的 输出 lml 进行 最 大 池 化 处 理 ， 这 里 的 池 化 尺寸 为 3x3， 即 将 3x3 
大 小 的 像素 块 降 为 1x1 的 像素 ， 取 样 的 步 长 为 2x2，padding 模式 设 为 VALID， 即 取样 时 

不 能 超过 边框 ， 不 像 SAME 模式 那样 可 以 填充 边界 外 的 点 。 最 后 将 输出 结果 pooll 的 结 
构 打 印 出 来 。 


Irni = tf.nn.lrn(conv1, 4, bias=1.@, alpha=@.001/9, beta=@.75, name="1rn1') 
pooll = tf.nn.max_pool(Irni, ksize=[1, 3, 3, 1], strides=[1, 2, 2, 1], 
padding='VALID', name='pool1' ) 


print_ activations (pool1) 


接 下 来 设计 第 2 个 卷 积 层 , 大 部 分 步骤 和 第 1 个 卷 积 层 相同 ， 只 有 几 个 参数 不 同 。 主 
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要 区 别 在 于 我 们 的 卷 积 核 尺寸 是 Sx5， 输 入 通道 数 ( 即 上 一 层 输出 通道 数 ， 也 就 是 上 一 层 
卷 积 核 数 量 ) 为 64， 卷 积 核 数量 为 192。 同 时 ， 卷 积 的 步 长 也 全 部 设 为 1， 即 扫描 全 图 像 


系 。 


with tf.name_scope('conv2') as scope: 
kernel = tf.Variable(tf.truncated_normal([5, 5, 64, 192], 
dtype=tf.float32, stddev=1e-1), name='weights') 
conv = tf.nn.conv2d(pooli, kernel, [1, 1, 1, 1], padding='SAME') 
biases = tf.Variable(tf.constant(9@.0, shape=[192], 
dtype=tf.float32), trainable=True, name='biases' ) 
bias = tf.nn.bias add(conv, biases) 


conv2 = tf.nn.relu(bias, name=scope) 





parameters += [kernel, biases] 


print_activations(conv2) 


接 下 来 对 第 2 个 卷 积 层 的 输出 conv2 进行 处 理 ， 同 样 是 先 做 LRN 处 理 ， 再 进行 最 大 | 
WILA, BAAS ASCE AE, EAA T o 
Jlrn2 = tf.nn.irn(conv2, 4, bias=1.@, alpha=@.001/9, beta=0.75, name='I1rn2') 
pool2 = tf.nn.max_pool(1rn2, ksize=[1,.3, 3, I], strides=(1, 2, 2, 1], 
padding='VALID’, name='pool2') 


print_activations(pool2) 


下 面 创 建 第 3 MERE, 基本 结构 和 前 面 两 个 类 似 , 也 只 是 参数 不 同 。 这 一 层 的 卷 积 
核 尺 寸 为 3x3 ， 输 入 的 通道 数 为 192， 卷 积 核 数量 继续 扩大 为 384， 同 时 卷 积 的 步 长 全 音 
为 1， 其 他 地 方 和 前 面 保持 一 致 。 


with tf.name_scope(‘conv3') as scope: 

kernel = tf.Variable(tf.truncated normal([3, 3, 192, 384], 
dtype=tf.float32, stddev=le-1), name='weights' ) 

conv = tf.nn.conv2d(pool2, kernel, [1, 1, 1, 1], padding=’SAME' ) 

biases = tf.Variable(tf.constant(9.0@, shape=[384], 
dtype=tf.float32), trainable=True, name='biases’ ) 

bias = tf.nn.bias add(conv, biases) 

conv3 = tf.nn.relu(bias, name=scope) 

parameters += [kernel, biases] 
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print_activations(conv3) 


第 4 个 卷 积 层 和 之 前 也 类 似 ， 这 一 层 的 卷 积 核 尺 寸 为 3x3 ， 输 入 通道 数 为 384， 但 是 
卷 积 核 数 量 降 为 256。 


with tf.name_scope('conv4’) as scope: 

kernel = tf.Variable(tf.truncated_normal([3, 3, 384, 256], 
dtype=tf.float32, stddev=ie-1), name='weights' ) 

conv = tf.nn.conv2d(conv3, kernel, [1, 1, 1, 1], padding='"SAME') 

biases = tf.Variable(tf.constant(@.0, shape=[256], 
dtype=tf.float32), trainable=True, name='biases') 

bias = tf.nn.bias add(conv, biases) 

conv4 = tf.nn.relu(bias, name=scope) 

parameters += [kernel, biases] 


print_activations(conv4) 


最 后 的 第 5 个 卷 积 层 同样 是 3x3 大 小 的 卷 积 核 , 输入 通道 数 为 256， 卷 积 核 数量 也 为 
256. 


with tf.name_scope('conv5') as scope: 

kernel = tf.Variable(tf.truncated_normal([3, 3, 256, 256], 
dtype=tf.float32, stddev=ie-1), name='weights' ) 

conv = tf.nn.conv2d(conv4, kernel, [1, 1, 1, 1], padding='SAME' ) 

biases = tf.Variable(tf.constant(@.@, shape=[256], 
dtype=tf.float32), trainable=True, name='biases') 

bias = tf.nn.bias_add(conv, biases) 

conv5 = tf.nn.relu(bias, name=scope) 

parameters += [kernel, biases] 


print_activations(conv5) - 


在 第 5 个 卷 积 层 之 后 , 还 有 一 个 最 大 池 化 层 , 这 个 池 化 层 和 前 两 个 卷 积 层 后 的 池 化 层 
一 致 ， 最 后 htc 池 化 层 的 输出 pool$。 至 此 ，inference 函数 就 完成 了 ， 它 可 以 创 
建 AlexNet 的 卷 积 部 分 。 在 正式 使 用 AlexNet 来 训练 或 预测 时 ,还 需要 添加 3 个 全 连接 层 ， 
STRAT AIA 4096, 4096 和 1000。 由 于 最 后 3 个 全 连接 层 的 计算 量 很 小 ， 就 没 放 到 
寺 算 速度 评测 中 , 他 们 对 计算 耗 时 的 影响 非常 小 。 读 者 在 正式 使 用 AlexNet 时 需要 自行 添 
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加 这 3 个 全 连接 层 ， 全 连接 层 在 TensorFlow 中 的 实现 方法 在 第 4 章 已 经 讲解 过 ， 这 里 不 
FEA VA 


poolS = tf.nn.max_pool(conv5, ksize=[1, 3, 3, 1], strides=[1, 2, 2, 1], 
padding='VALID', name='pool5') 


print_activations(pool5) 


return pool5, parameters 


接 下 来 实现 一 个 评估 AlexNet 每 轮 计 算 时 间 的 函数 time _tensorflow_ run。 这 个 函数 的 
第 一 个 输入 是 TensorFlow 的 Session， 第 二 个 变量 是 需要 评测 的 运算 算 子 ， 第 三 个 变量 是 
测试 的 名 称 。 先 定义 预 热 轮 数 num_steps_bum_in=10， 它 的 作用 是 给 程序 热 ， 头 几 轮 迭 
代 有 显存 加 载 、cache 命中 等 问题 因此 可 以 跳 过 , 我 们 只 考量 10 轮 迭 代 之 后 的 计算 时 间 。 
同时 ， 也 记录 总 时 间 total_duration 和 平方 和 total_duration_squared 用 以 计算 方差 。 


def time_tensorflow_run(session, target, info_string): 
num_steps burn_in = 10 
total duration = 0.0 


total duration squared = 9.0 


我 们 进行 num _ batches+num steps burn in Wik, 使 用 time.time() 记 录 时 间 , 每 

次 迭代 通过 session.run(target) 执 行 。 在 初始 热身 的 num steps burn ip 次 迭代 后 ,每 10 轮 

迭代 显示 当前 和 迭代 所 需要 的 时 间 。 同 时 每 轮 将 total duration 和 total duration squared 累加 ， 
以 便 后 面 计算 每 轮 耗 时 的 均值 和 标准 差 。 


for i in range(num_batches + num steps burn in): 
start_time = time.time() 
_ = session.run(target) 
duration = time.time() - start time 
if i >= num steps burn in: 
if not i % 10: | 
print('%s: step 4d, duration = %.3f' % 
(datetime.now(), i - num_steps_burn_in, duration)) 
total duration += duration . 


total _duration_squared += duration * duration 
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EHEAR, ARERR TEHE m 和 标准 差 sd, 最 后 将 结果 显示 出 来 。 这 
样 就 完成 了 计算 每 轮 迭 代 耗 时 的 评测 函数 time tensorflow run。 


mn = total_duration / num_batches 

vr = total _duration_squared / num_batches - mn * mn 
sd 
print('%s: %s across 4d steps, %.3f +/- %.3f sec / batch’ % 


math.sqrt(vr) 


(datetime.now(), info _string, num_batches, mn, sd)) 


接 下 来 是 主 函 数 run benchmark。 首 先 使 用 with tf.Graph().as_default() Œ X ERU KY 
Graph 方便 后 面 使 用 。 如 前 面 所 说 ， 我 们 并 不 使 用 ImageNet 数据 集 来 训练 ， 只 使 用 随机 
图 片 数据 测试 前 馈 和 反馈 计算 的 耗 时 。 我 们 使 用 给 random_normal 函数 构造 正 态 分 布 ( 标 
准 差 为 0.1 ) 的 随机 tensor， 第 一 个 维度 是 batch_size， 即 每 轮 迭 代 的 样本 数 ， 第 二 个 和 第 
三 个 维度 是 图 片 的 尺寸 image_size=224， 第 四 个 维度 是 图 片 的 颜色 通道 数 。 接 下 来 ， 使 用 
前 面 定 义 的 inference 函数 构建 整个 AlexNet 网 络 , 得 到 最 后 一 个 池 化 层 的 输出 pools 和 网 
络 中 需要 训练 的 参数 的 集合 parameters。 接 下 来 ， 我 们 使 用 tfSession() 创 建新 的 Session 
并 通过 tf.global variables_initializer() 初 始 化 所 有 参数 。 


def run_benchmark(): 
with tf.Graph().as_default(): 
image size = 224 
images = tf.Variable(tf.random_normal([batch size, 
image size, 

image size, 3]; | 
dtype=tf.float32, 
stddev=1e-1)) 


pool5, parameters = inference(images) 


init = tf.global_variables_initializer() 


sess = tf.Session() 


sess .run(init) | | | = TA 
下 面 进行 AlexNet 的 forward tr HAE, 1x BERR time_tensorflow_run 统计 运 
算 时 间 , 传 入 的 target 就 是 pool5, 即 卷 积 网 络 最 后 一 个 池 化 层 的 输出 。 然 后 进行 backward 
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即 训 练 过 程 的 评测 ， 这 里 和 forward 计算 有 些 不 同 ， 我 们 需要 给 最 后 的 输出 pool5 设置 一 
个 优化 目标 loss。 我 们 使 用 给 nn.12 loss 计算 pools 的 loss, AEH tf.gradients 求 相 对 于 loss 
的 所 有 模型 参数 的 梯度 , 这 样 就 模拟 了 一 个 训练 的 过 程 。 当 然 , 训练 时 还 有 一 个 根据 梯度 
更 新 参数 的 过 程 ， 不 过 这 个 计算 量 很 小 ， 就 不 统计 在 评测 程序 里 了 。 最 后 我 们 使 用 
time_tensorflow_run 统计 backward 的 运算 时 间 ， 这 里 的 target 就 是 求 整个 网 络 梯度 gard 
的 操作 。 


time_tensorflow_run(sess, pool5, "Forward") 


objective = tf.nn.12_ loss(pool5) 
grad = tf.gradients(objective, parameters) 


time_tensorflow_run(sess, grad, "“Forward-backward" ) 


最 后 执行 主 函 效 。 


run_benchmark() 


程序 显示 的 结果 有 三 段 , 首先 是 AlexNet 的 网 络 结构 , 可 以 看 到 我 们 定义 的 5 个 卷 积 
层 中 第 1 个 、 第 2 个 和 第 5 个 卷 积 层 后 面 还 连接 着 池 化 层 , 另外 每 一 层 输出 tensor 的 尺寸 
也 显示 出 来 了 。 


convi [32, 56, 56, 64] 
pooli1 [32, 27, 27, 64] 
conv2 [32, 27, 27, 192] 
pool2 = [32; °13,.13,-192] 
conv3 [32, 13, 13, 384] 
conv4 [32, 13, 13, 256] 
convS5S [S23 13, 13, 236] 
pool5 [32, 6, 6, 256] 


然后 显示 的 是 forward 计算 的 时 间 。 我 们 使 用 的 GPU 是 GTX 1080， 软 件 环境 包括 
CUDA 8.0 和 cuDNN 5.1。 在 有 LRN 层 时 每 轮 迭 代 时 间 大 约 为 0.026s; 去 除 LRN 层 时 每 
轮 和 迭代 时 间 大 约 为 0.007s， 运 算 时 间 有 了 大 幅 缩减 ， 大 约 快 了 3 倍 多 。 因 为 LRN 层 对 最 
终 准 确 率 的 影响 不 是 很 大 ， 所 以 读者 可 以 目 行 考 虑 是 否 使 用 LRN。 
2016-12-10 21:08:31.85175@: step 6，duration = 0.026 
2016-12-10 21:08:32.109889: step 10, duration = 0.026 


bm 106 


ww ai bbt.com TUOOF0O0 0 





6 TensorFlow 实现 经 典 卷 积 神经 网 络 T 


2016-12-10 21:08:32.367558: step 20, duration = 0.026 
.026 


.026 


2016-12-10 21:08:32.625277: step 30, duration = 
2016-12-10 21:68:32.884685: step 40, duration = 


2016-12-10 21:08:33.400239: step 60, duration = 0.026 
2016-12-10 21:08:33.658713: step 70, duration = 0.026 
2016-12-10 21:08:33.916780: step 88, duration = 0.026 
2016-12-10 21:08:34.174840: step 98, duration = 0.026 
2016-12-10 21:08:34.407022: Forward across 100 steps, 0.026 +/- 0.000 sec / 


O 

0 

0 
2016-12-10 21:08:33.141951: step 50, duration = 0.026 

O 

6 

6 


batch 


然后 是 显示 的 backward 运算 的 时 间 。 在 使 用 LRN 层 时 ， 每 轮 的 迭代 时 间 为 0.078s; 
在 去 除 LRN 层 后 ， 每 轮 迭 代 时 间 约 为 0.025s， 速 度 也 快 了 3 倍 多 。 另 外 可 以 发 现 不 论 是 
RA LRN, 我们 backward 运算 的 耗 时 大 约 是 forward 耗 时 的 三 倍 。 


2016-12-10 21:08:35.447963: step ©, duration = 0.078 
2016-12-10 21:08:36.225855: step 10, duration = 0.078 
2016-12-10 21:08:37.002277: step 20, duration = 0.077 


2016-12-10 21:08:37.777730: step 30, duration = 0.078 


2016-12-10 21:08:38.555231: step 40, duration = 0.078 
2016-12-10 21:08:39.333113: step 50, duration = 0.077 
2016-12-10 21:08:40.110716: step 60, duration = 0.078 
2016-12-10 21:08:40.887492: step 70, duration = 0.078 
2016-12-10 21:08:41.664907: step 80, duration = 0.078 


2016-12-10 21:08:42.441733: step 98, duration = 0.078 
2016-12-10 21:08:43.139532: Forward-backward across 10@ steps, 0.078 +/- 6.6 
66 sec / batch reat | : 


CNN 的 训练 过 程 ( BY backward 计算 ) 通 前 都 比较 耗 时 , 而 且 不 像 预测 过 程 ( BY forward 
计算 )， 训 练 通常 需 要 过 很 多 遍 数 据 ， 进 行 大 量 的 和 迭代。 因此 应 用 CNN 的 主要 瓶颈 还 是 
在 训练 ， 用 CNN 做 预测 问题 不 大 。 目 前 TensorFlow BAXI iOS, Android 系统 中 运 
行 ， 所 以 在 手机 上 使 用 CPU 进行 人 脸 识别 或 图 片 分 类 已 经 非常 方便 了 ， 并 且 响 应 速度 也 
很 快 。 


至 此 ，AlexNet 的 TensorFlow 实现 和 运算 时 间 评 测 就 完成 了 。AlexNet 为 卷 积 神经 区 
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络 和 深度 学 习 正 名 ， 以 绝对 优势 拿 下 ILSVRC 2012 冠军 ， 引 起 了 学 术 界 的 极 大 关注 ， 为 
复兴 神经 网 络 做 出 了 很 大 贡献 。AlexNet Æ ILSVRC 数据 集 上 可 达到 16.4% 的 错误 率 ( 读 
者 可 自行 下 载 数据 集 测试 ， 但 注意 batch size 可 能 要 设 为 1 才能 复 现 论文 中 的 结果 )， 其 
中 用 到 的 许多 网 络 结构 和 Trick 给 深度 学 习 的 发 展 币 来 了 深刻 的 影响 。 当 然 , 我 们 也 不 能 
忽视 ImageNet 数据 集 给 深度 学 习 带 来 的 贡献 。 训 练 深度 卷 积 神经 网 络 ， 必 须 拥有 一 个 像 
ImageNet 这 样 超大 的 数据 集 才 能 避免 过 拟 合 ， 发 挥 深度 学 习 的 优势 。 可 以 说 ， 传 统 机 融 
学 习 模 型 适合 学 习 一 个 小 型 数据 集 ， 但 是 对 于 大 型 数据 集 ， 我 们 需要 有 更 大 学 习 容 量 
(Learning Capacity ) 的 模型 ， 即 深度 学 习 模型 。 


在 AlexNet 发 表 在 NIPS 时 ，Hinton 曾 说 “如 果 你 没有 参加 过 之 前 十 几 年 的 NIPS, 
那 没关系 ， 因 为 直到 今年 神经 网 络 才 真正 开始 生效 。” 当 时 有 很 多 与 会 的 教授 表示 不 能 接 
受 神 经 网 络 ， 他 们 认为 深度 学 习 是 一 个 黑箱 模型 ， 不 可 解释 ， 有 超过 6000 万 的 参数 ,在 
ILSVRC 上 的 成 绩 可 能 只 是 某 种 过 拟 合 , 对 计算 机 视觉 贡献 不 大 。 然 而 之 前 使 用 传统 方法 
获得 过 ILSVRC 比赛 冠军 的 NEC Labs 的 模型 参数 量 也 不 少 。 他 们 当时 使 用 sparse SIFT 
加 Pyramid Pooling 提取 特征 , 然后 使 用 SVM 进行 分 类 , 但 是 他 们 的 SVM 模型 参数 也 有 
超过 1 亿 6000 万 , 远 比 AlexNet 的 参数 多 。 因 此 说 CNN 参数 多 所 以 没有 价值 的 观点 是 立 
不 住 脚 的 。 深 度 学 习 的 参数 并 不 一 定 比 传统 机 器 学 习 模 型 多 , 尤其 卷 积 层 使 用 的 参数 量 其 
实 很 少 ， 但 是 其 抽取 特征 的 能 力 是 非常 强 的 ， 这 也 是 CNN 之 所 以 有 效 的 原因 。 


6.2 TensorFlow 实现 VGGNet 


VGGNet 是 牛津 大 学 计算 机 视觉 组 (Visual Geometry Group ) 和 Google DeepMind 
公司 的 研究 员 一 起 研发 的 的 深度 卷 积 神经 网 络 。 VGGNet 探索 了 卷 积 神经 网 络 的 深度 与 其 
性 能 之 间 的 关系 , st RES 3x3 的 小 型 卷 积 核 和 2x2 的 最 大 池 化 层 , VGGNet 成 功 地 
构筑 了 16~19 层 深 的 卷 积 神经 网 络 。VGGNet 相 比 之 前 state-of-the-art 的 网 络 结构 ， 错 误 
率 大 幅 下 降 ， 并 取得 了 ILSVRC 2014 比赛 分 类 项 目的 第 2 名 和 定位 项 目的 第 1 名 。 同 时 
VGGNet 的 拓展 性 很 强 , 迁移 到 其 他 图 片 数据 上 的 泛 化 性 非常 好 。VGGNet 的 结构 非常 们 
洁 ， 整 个 网 络 都 使 用 了 同样 大 小 的 卷 积 核 尺 寸 (3x3 ) 和 最 大 池 化 尺寸 (2x2 )。 到 目前 为 
1k, VGGNet 依然 经 常 被 用 来 提取 图 像 特征 。VGGNet 训练 后 的 模型 参数 在 其 官方 网 站 上 
开源 了 ， 可 用 来 在 domain specific 的 图 像 分 类 任务 上 进行 再 训练 ( 相当 于 提供 了 非常 好 
的 初始 化 权重 )， 因 此 被 用 在 了 很 多 地 方 。 
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VGGNet 论文 中 全 部 使 用 了 3x3 的 卷 积 核 和 2x2 的 池 化 核 , 通 过 不 断 加 深 网 络 结构 来 
提升 性 能 。 图 6-6 PANY VGGNet 各 级 别 的 网 络 结构 图 ,图 6-7 所 示 为 每 一 级 别 的 参数 量 ， 
M11 层 的 网 络 一 直到 19 层 的 网 络 都 有 详尽 的 性 能 测试 。 虽然 从 A 到 刁 每 一 级 网 络 逐 渐 
TIR, 但 是 网 络 的 参数 量 并 没有 增长 很 多 , 这 是 因为 参数 量 主要 都 消耗 在 最 后 3 个 全 连接 
Z. 前面 的 卷 积 部 分 虽然 很 深 , 但 是 消耗 的 参数 量 不 大 , 不 过 训练 比较 耗 时 的 部 分 依然 是 
卷 积 , 因 其 计算 量 比 较 大 。 这 其 中 的 D、E 也 就 是 我 们 常 说 的 VGGNet-16 和 VGGNet-19。 
C 很 有 意思 , 相 比 B 多 了 几 个 1x1 的 卷 积 层 ，1xl 卷 积 的 意义 主要 在 于 线性 变换 , 而 输入 
通 壹 数 和 输出 通道 数 不 变 ， 没 有 发 生 降 维 。 


ConvNet Co guration 
RN UB | | 


Cc) oo 7 
11 weight | 11 weight | 13 weight | 16 weight | 16 weight | 19 weight 
com 
LRN conv3-64 conv3-64 conv3-64 conv3-64 

conv3-128 | conv3-128 | conv3-128 | conv3-128 


conv3-256 | conv3-256 conv3-256 | conv3-256 | conv3-256 
conv3-256 | conv3-256 conv3-256 | conv3-256 | conv3-256 
convi-256 | conv3-256 | conv3-256 
conv3-256 
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conv3-512 
cony3-512 
conv3-512 


conv3-512 
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cony3-512 
conv3-512 



















6-6 VGGNet 各 级 别 网 络 结 构图 


AAIRNN| BC [DE 
Number of parameters 


6-7 VGGNet 各 级 别 网 络 参 数量 (单位 为 百 万 ) 


VGGNet 拥有 5 段 卷 积 , 每 一 段 内 有 2~3 个 卷 积 层 , 同时 每 段 尾 部 会 连接 一 个 最 大 池 
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化 层 用 来 缩小 图 片 尺 寸 。 每 段 内 的 卷 积 核 数 量 一 样 ,， 越 靠 后 的 段 的 卷 积 核 数量 越 多 : 64 - 
128 — 256 一 512 - 5$12。 其 中 经 常 出 现 多 个 完全 一 样 的 3x3 的 卷 积 层 堆 倒 在 一 起 的 情况 ， 
这 其 实 是 非常 有 用 的 设计 。 如 图 6-8 所 示 , 两 个 3x3 的 卷 积 层 串 联 相当 于 1 5x5 的 卷 积 
层 ， 即 一 个 像素 会 跟 周围 5x5 的 像素 产生 关联 ， 可 以 说 感受 野 大 小 为 5x5。 而 3 个 3x3 
的 卷 积 层 串联 的 效果 则 相当 于 1 个 7x7 的 卷 积 层 。 除 此 之 外 ，3 个 串联 的 3x3 的 卷 积 层 ， 
拥有 比 1 个 7x7 的 卷 积 层 更 少 的 参数 量 , 只 有 后 者 的 一 一 = 55%。 最 重要 的 是 , 3 个 3x3 
的 卷 积 层 拥有 比 1 个 7x7 的 卷 积 层 更 多 的 非 线性 变换 ( 前 者 可 以 使 用 三 次 ReLU 激活 函数 ， 
而 后 者 只 有 一 次 )， 使 得 CNN 对 特征 的 学 习 能 力 更 强 。 





6-8 ”两 个 串联 3x3 的 卷 积 层 功能 类 似 于 一 个 5x5 的 卷 积 层 


VGGNet 在 训练 时 有 一 个 小 技巧 ， 先 训练 级 别 A 的 简单 网 络 ， 再 复 用 A 网 络 的 权重 

来 初始 化 后 面 的 几 个 复杂 模型 ， 这 样 训 练 收敛 的 速度 更 快 。 在 预测 时 ，VGG 采用 
Multi-Scale 的 方法 ， 将 图 像 scale 到 一 个 尺寸 Q， 并 将 图 片 输入 卷 积 网 络 计 算 。 然 后 在 最 
后 一 个 卷 积 层 使 用 滑 窗 的 方式 进行 分 类 预测 , 将 不 同窗 口 的 分 类 结果 平均 , 再 将 不 同 尺寸 
Q 的 结果 平均 得 到 最 后 结果 , 这 样 可 提高 图 片 数 据 的 利用 率 并 提升 预测 准确 率 。 同 时 在 训 
练 中 ，VGGNet 还 使 用 了 Multi-Scale 的 方法 做 数据 增强 ， 将 原始 图 像 缩 放 到 不 同 尺 寸 S， 
然后 再 随机 裁 切 224x224 的 图 片 ， 这 样 能 增加 很 多 数据 量 ， 对 于 防止 模型 过 拟 合 有 很 不 
错 的 效果 。 实 践 中 ， 作 者 令 S 在 [256,512] 这 个 区 间 内 取 值 ， 使 用 Multi-Scale 获得 多 个 版 
”本 的 数据 ,并 将 多 个 版 本 的 数据 合 在 一 起 进行 训练 .图 6-9 所 示 为 VGGNet 使 用 Multi-Scale 
训练 时 得 到 的 结果 ,可 以 看 到 DD 和 E 都 可 以 达到 7.5% 的 错误 率 。 最 终 提交 到 ILSVRC 2014 
的 版 本 是 仅 使 用 Single-Scale 的 6 个 不 同等 级 的 网 络 与 Multi-Scale 的 D 网 络 的 融合 ,达到 
了 7.3% 的 错误 率 。 不 过 比赛 结束 后 作者 发 现 只 融合 Multi-Scale 的 D F0 E 可 以 达到 更 好 的 
效果 ， 错 误 率 达到 7.0%， 再 使 用 其 他 优化 策略 最 终 错 误 率 可 达到 6.8% 左 右 ， 非常 接近 同 
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年 的 冠军 Google Inceptin Net。 同 时 ， 作 者 在 对 比 各 级 网 络 时 总 结 出 了 以 下 几 个 观点 。 
(1) LRN 层 作 用 不 大 。 
(2 ) 越 深 的 网 络 效果 越 好 。 
(3) 1xl 的 卷 积 也 是 很 有 效 的 , 但 是 没有 3x3 的 卷 积 好 , 大 一 些 的 卷 积 核 可 以 学 习 更 
大 的 空间 特征 。 


ConvNet config, (Table 1) smallest image side top-1 val. error (%) 
| train(S) | test(@) | 


PBS 7256 | 224,256,288 
224,256,288 





top-5 val. error (%) 








wO 
N 






c 
2e | 224,256,288 | | 
noa [352,384,416 | 265 SOT SC 

E | a a 


图 6-9 各 级 别 VGGNet 在 使 用 Multi-Scale 训练 时 的 top-5 错误 率 


VGGNet 训练 时 使 用 了 4 块 Geforce GTX Titan GPU 并 行 计 算 , 速度 比 单 块 GPU 快 
3.75 倍 ， 几 乎 没有 太 多 性 能 损耗 。 但 是 ， 每 个 网 络 耗 时 2~3 周 才 可 以 训练 完 。 因 此 我 们 
这 里 不 直接 使 用 ImageNet 数据 训练 一 个 VGGNet， 而 是 采用 跟 AlexNet 一 样 的 方式 : 构 
造 出 VGGNet 网 络 结构 , 并 评测 其 forward ( inference ) 耗 时 和 backward ( training ) 耗 时 。 


下 面 就 开始 实现 VGGNet-16， 也 就 是 上 面 的 版 本 D， 其 他 版 本 读者 可 以 仿照 本 节 的 
代码 自行 修改 并 实现 ， 难 度 不 大 。 首 先 ， 我 们 载 入 几 个 系统 库 和 TensorFlow。 本 市 代码 
主要 来 自 tensorflow-vgg 的 开源 实现 。 


from datetime import datetime 
import math 
import time 


import tensorflow as tf 


VGGNet-16 包含 很 多 层 的 卷 积 , 因此 我 们 先 写 一 个 函数 conv_op, 用 来 创建 卷 积 层 并 
把 本 层 的 参数 存 入 参数 列表 。 先 来 看 conv_op 函数 的 输入 , input_op 是 输入 的 tensor, name 
是 这 一 层 的 名 称 ，kh 是 kernel height 即 卷 积 核 的 高 ，kw 是 kernel width 即 卷 积 核 的 宽 ， 
n out 是 卷 积 核 数量 即 输 出 通道 数 ，dh 是 步 长 的 高 ，dw 是 步 长 的 宽 , p 是 参数 列表 。 下 面 
使 用 get_shapeO[-1].value 获取 输入 input_op 的 通道 数 ， 比 如 输入 图 三 的 尺寸 224x224x3 
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中 最 后 的 那个 321E tf.name scope(name) 设 置 scope。 我 们 的 kernel( 即 卷 积 核 参 数 ) 
使 用 tfi.get_variable 创建 ， 其 中 shape 就 是 [kh,， kw, n in, n_out] 即 [ 卷 积 核 的 高 ， 卷 积 核 的 
损 ， 输 入 通道 数 ， 输 出 通道 数 ]， 同 时 使 用 eer pe mn initializer_conv2d() 做 参 
效 初 始 化 。Xavier 初始 化 方法 我 们 在 第 实现 过 ， 其 原理 也 讲解 过 ， 在 此 不 做 赣 述 。 


def conv_op(input_op, name, kh, kw, n_out, dh, dw, p): 
n_in = input_op.get_shape()[-1].value 


with tf.name_scope(name) as scope: 
kernel = tf.get_variable(scope+"w" 
shape=[kh, kw, n_in, n_out], dtype=tf.float32, 


initializer=tf.contrib.layers.xavier_initializer_conv2d()) 


接着 使 用 tf.nn.conv2d 对 input op 进行 卷 积 处 理 , 卷 积 核 即 为 kernel, 步 长 是 dhxdw， 
padding 模式 设 为 SAME。biases 使 用 tf.constant 赋值 为 0， 再 使 用 tf. Variable 将 其 转 成 可 
训练 的 参数 。 我 们 使 用 tf.nn.bias add conv 与 bias #80, 再 使 用 tt.nn.relu 对 其 
进行 非 线 性 处 理 得 到 activation。 最 后 将 创建 卷 积 层 时 用 到 as kernel 和 biases Ys Hilt 
参数 列表 p， 并 将 卷 积 层 的 输出 activation 作为 函数 结果 返 


conv = tf.nn.conv2d(input_op, kernel, (1, dh, dw, 1), 
padding='SAME' ) 
bias init val = tf.constant(@.9, shape=[n_out], dtype=tf.float32) 
biases = tf.Variable(bias_init_val, trainable=True, name='b') 
= tf.nn.bias_add(conv, biases) | 
activation = tf.nn.relu(z, name=scope) 
p += [kernel, biases] 


return activation 


下 面 定 义 全 连接 层 的 创建 函数 fc_op。 一样 是 先 获取 输入 input_op 的 通道 数 ， 然 后 使 

用 给 get_variable 创建 全 连接 层 的 参数 ， 只 不 过 参数 的 维度 只 有 两 个 ， 第 一 个 维度 为 输入 

通道 数 n_in， 第 二 个 维度 为 输出 的 通道 数 n_out。 同 样 ， 参 数 初 始 化 方法 也 使 用 

xavier initializer。 这 里 biases 不 再 初始 化 为 0， 而 是 赋予 一 个 较 小 的 值 0.1 以 避免 dead 
neuron。 然 后 使 用 tf.nn.relu_layer 对 输入 变量 inpnut oi 与 kernel 做 矩阵 乘法 并 加 上 biases, 

再 做 ReLU U 非 线性 变换 和 导 到 | activation。 最 后 将 这 连接 层 用 到 参数 kernel, biases AJ 
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到 参数 列表 p， 并 将 activation 作为 函数 结果 返回 。 


def fc_op(input_op, name, n_out, p): 


n_in = input_op.get_shape()[-1].value 


with tf.name_scope(name) as scope: 
kernel = tf.get_variable(scopet"w", 
shape=[n_in, n_out], dtype=tf.float32, 
initializer=tf.contrib.layers.xavier_initializer() ) 
biases = tf.Variable(tf.constant(@.1, shape=[n_out], 
dtype= tf.float32), name='b') 
activation = tf.nn.relu_layer(input_op, kernel, biases, name= scope) 
p += [kernel, biases] 


return activation 


再 定义 最 大 池 化 层 的 创建 函数 mpool op。 这 里 直接 使 用 tfnn.max pool， 输 入 即 为 
input_op， 池 化 尺寸 为 khxkw， 步 长 是 dhxdw, padding 模式 设 为 SAME. 


def mpool op(input op, name, kh, kw, dh, dw): 
return tf.nn.max_pool(input_op, 
ksize=[1, kh, kw, 1], 
strides=[1, dh, dw, 1], 
padding='SAME', 


name=name ) 


完成 了 卷 积 层 、 全 连接 层 和 最 大 池 化 层 的 创建 函数 ， 接 下 来 就 开始 创建 VGGNet-16 
的 网 络 结构 。VGGNet-16 主要 分 为 6 个 部 分 ， 前 5 段 为 卷 积 网 络 ， 最 后 一 段 是 全 连接 网 
络 。 我 们 定义 创建 VGGNet-16 PZB EFA AŽ inference op ,输入 有 input op 和 keep prob, 
这 里 的 keep_prob 是 控制 dropout 比率 的 一 个 placeholder。 第 一 步 先 初始 化 参数 列表 po 然 
后 创建 第 一 段 卷 积 网 络 , 这 一 段 正如 图 6-6 中 的 网 络 结构 , 由 两 个 卷 积 层 和 一 个 最 大 池 化 
层 构成 。 我 们 使 用 前 面 写 好 的 函数 conv op 、mpool op 来 创建 他 们 。 这 两 个 卷 积 层 的 卷 积 
核 的 大 小 都 是 3x3， 同 时 卷 积 核 数 量 〈 输 出 通道 数 ) 均 为 64， 步 长 为 1x1， 全 像 系 扫描 。 
第 一 个 卷 积 层 的 输入 input_op 的 尺寸 为 224x224x3 ， 输 出 尺寸 为 224x224x64; 而 第 二 个 
卷 积 层 的 输入 输出 尺寸 均 为 224x224x64。 卷 积 层 后 的 最 大 池 化 层 则 是 一 个 标准 的 2x2 的 
最 大 池 化 ， 将 输出 结果 尺寸 变 为 了 112x112x64。 
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def inference op(input op, keep_prob): 
= 


conv1 1 = conv_op(input_op, name="convi_1", kh=3, kw=3, n_out=64, dh=1, 
dw=1, p=p) 

convi_2 = conv_op(conv1_1, name="conv1_2”, kh=3, kw=3, n_out=64, dh=1, 
dw=1, p=p) 

pool1 = mpool_op(convi_2, name="pooli", kh=2, kw=2, dw=2, dh=2) 


第 二 段 卷 积 网 络 和 第 一 段 非常 类 似 , 同样 是 两 个 卷 积 层 加 一 个 最 大 池 化 层 , 两 个 卷 积 
层 的 卷 积 核 尺 寸 也 是 3x3, 但 是 输出 通道 数 变 为 128， 是 以 前 的 两 倍 。 最 大 池 化 层 则 和 前 
面 保持 一 至， 因此 这 一 段 卷 积 网 络 的 输出 尺寸 变 为 56x56x128。 


conv2_1 


conv_op(pooli, name="conv2_1", kh=3, kw=3, n_out=128, dh=1, 

| dw=1, p=p) 

conv2_2 = conv_op(conv2_1, name="conv2_2", kh=3, kw=3, n_out=128, dh=1, 
dw=1, p=p) 

pool2 = mpool_op(conv2_2, name="pool2", kh=2, kw=2, dh=2, dw=2) 


接 下 来 是 第 三 段 卷 积 网 络 , 这 里 有 3 个 卷 积 层 和 1 个 最 大 池 化 层 。3 个 卷 积 层 的 卷 积 
核 大 小 依然 是 3x3 ， 但 是 输出 通道 数 增长 为 256， 而 最 大 池 化 层 保持 不 变 ， 因 此 这 一 段 郑 
只 网 络 的 输出 尺寸 是 28x28x256。 


conv3_1 = conv_op(pool2, name="conv3_1", kh=3, kw=3, n_out=256, dh=1, 
dw=1, p=p) 


conv3_2 = conv_op(conv3_1, name="conv3_ 2", kh=3, kw=3, n_out=256, dh=1, 
dw=1, p=p). 

conv3_3 = conv_op(conv3_2, name="conv3_3", kh=3, kw=3, n_out=256, dh=1, 
dw=1, p=p) 


pool3 = mpool op(conv3 3, name="pool3", kh=2, kw=2, dh=2, dw=2) 


第 四 段 郑 积 网 络 也 古 3 个 卷 积 层 加 1 个 最 大 池 化 层 。 读 者 可 能 已 经 发 现 规律 了 , 到 目 
前 为 止 ，VGGNet-16 的 每 一 段 卷 积 网 络 都 会 将 图 像 的 边 长 缩小 一 半 ， 但 是 将 卷 积 输出 通 
道 数 翻 倍 。 这 样 图 像 面积 缩小 到 1/4， 输 出 通道 数 变 为 2 倍 ， 因 此 输出 tensor 的 总 尺寸 每 
次 缩小 一 半 。 这 一 层 就 是 将 卷 积 输出 通道 数 增加 到 512, 但 是 通过 最 大 池 化 将 图 片 缩 小 为 
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14x14, 


conv4_1 = conv_op(pool3, name="conv4_1", kh=3, kw=3, n_out=512, dh=1, 
dw=1, p=p) 

conv4_2 = conv_op(conv4_1, name="conv4_2", kh=3, kw=3, n_out=512, dh=1, 
dw=1, p=p) 

conv4_ 3 = conv_op(conv4_2, name="conv4_3", kh=3, kw=3, n_out=512, dh=1, 
dw=1, p=p) 

pool4 = mpool_op(conv4_3, name="pool4", kh=2, kw=2, dh=2, dw=2) 


一 段 卷 积 网 络 有 所 变化 ， 这 里 卷 积 输出 的 通道 数 不 再 增加 ， 继 续 维 持 在 512。 最 
后 一 段 卷 积 网 络 同样 是 3 个 卷 积 层 加 一 个 最 大 闻 化 层 ， 卷 积 核 尺 寸 为 3x3 ， 步 长 为 1x1， 
池 化 层 尺寸 为 2x2， 步 长 为 2x2。 因 此 到 这 里 输出 的 信 寸 变 为 7x7x512。 


conv5 1 = conv_op(pool4, name="conv5_1", kh=3, kw=3, n_out= 512, dh=1, 
dw=1, p=p) 

conv5 2 = conv_op(convS 1, name="conv5_2", kh=3, kw=3, n_out= 512, dh=1, 
dw=1, p=p) 


conv5_3 = conv_op(conv5_2, name="conv5_3", kh=3, kw=3, n_out=512, dh=1, 


dw=1, p=p) 
pool5 = mpool_op(conv5_3, name="pool5", kh= 2, kw=2, dw=2, dh=2) 


我 们 将 第 5 RARR RET aF, EH threshape 函数 将 每 个 样本 化 为 
长 度 为 7x7x512=25088 的 一 维 向 量 。 


shp = pool5.get shape() 
flattened shape = shp[1].value * shp[2].value * shp[3].value 
resh1 = tf.reshape(pool5, [-1, flattened_shape], name="resh1") 


然后 连接 一 个 隐 含 节点 数 为 4096 的 全 连接 层 ， 激 活 函 数 为 ReLU。 然 后 连接 一 个 
hna 在 训练 时 节点 保留 率 为 0.5， 预 测 时 为 1.0。 
fc6 = fc_op(reshi, name="fc6", n out=4696, p=p) 
fc6_drop = tf.nn.dropout(fc6, keep_prob, name="fc6_drop") 
接 下 来 是 一 个 和 前 面 一 样 的 全 连接 层 ， 之 后 同样 连接 一 个 Dropout 层 。 


fc7 = fc_op(fc6_drop, name="fc7", n_out=4096, p=p) 
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fc7_drop = tf.nn.dropout(fc7, keep_prob, name="fc7_drop") 


连接 一 个 有 1000 个 输出 节点 的 全 连接 层 ， 并 使 用 Softmax 进行 处 理 得 到 分 类 输 
Miny 这 里 使 用 tf.argmax 求 输出 概率 最 大 的 类 别 。 最 后 将 fc8、softmax、predictions 和 
参数 列表 p 一 起 返回 。 到 此 为 止 ，VGGNet-16 的 网 络 结构 就 全 部 构建 完成 了 。 


fc8 = fc_op(fc7_drop, name="fc8", n_out=1000, p=p) 
softmax = tf.nn.softmax(fc8) 
predictions = tf.argmax(softmax, 1) 


return predictions, softmax, fc8, p 


我 们 的 评测 函数 time tensorflow_run(0 和 前 面 AlexNet 中 的 非常 相似 ,只 有 一 点 区 别 : 
我 们 在 session.run() 方 法 中 引入 了 feed_dict, 方便 后 面 传 入 keep_prob 来 控制 Dropout 层 的 
保留 比率 。 


def time tensorflow run(session, target, feed, info string): 
num_steps burn in = 10 
total duration = 0.0 
total _duration_squared = 0.0 
for i in range(num_batches + num steps burn in): 
start_time = time.time() 
_ = session.run(target, feed_dict=feed) 
duration = time.time() - start_time 
if i >= num steps burn in: 
if not i % 10: 7 
print (‘%s: step %d, duration = %.3f' % 
(datetime. now(), i - num EC burn _in, duration)) 
total_ duration += duration 


total_duration_squared += duration * duration 


mn = total_duration / num_batches 
vr = total_duration_squared / num_batches - mn * mn 
sd = math.saqrt(vr) 


print ('%s: %s across %d steps, %.3f +/- %.3f sec / batch' % 


(datetime.now(), info string, num_batches, mn, sd)) 


下 面 定 义 评 测 的 主 函 数 run_benchmark ,我 们 的 目标 依然 是 仅 评测 forward #1 backward 
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的 运算 性 能 ， 并 不 进行 | 练 和 预测 。 首 先是 生成 尺寸 为 224x224 的 随机 图 片 , 方 
法 与 AlexNet 中 一 样 ,通过 给 random_normal 函数 生成 标准 差 为 0.1 的 正 态 分 布 的 随机 数 。 


def run_benchmark(): 
with tf.Graph().as_default(): 

image size = 224 

images = tf.Variable(tf.random_normal([batch_size, 
image_size, 
image_size, 3], 
dtype=tf.float32, 
stddev=1e-1) ) 


接 下 来 , 创建 keep prob 的 placeholder, 并 调用 inference op 国 数 构建 VGGNet-16 的 
网 络 结构 ， 获 得 predictions, softmax, fc8 和 参数 列表 po 


keep prob = tf.placeholder(tf.float32) 


predictions, softmax, fc8, p = inference_op(images, keep prob) 


然后 创建 Session 并 初始 化 全 局 参数 。 


init = tf.global variables initializer() 
sess = tf.Session() 


sess.run(init) 


我 们 通过 将 keep prob 设 为 1.0 来 执行 预测 , 并 使 用 time tensorflow run 评测 forward 
运算 时 间 。 再 计算 VGGNet-16 最 后 的 全 连接 层 的 输出 fc8 AY 12 loss， 并 使 用 tf. gradients 
求 相 对 于 这 个 loss 的 所 有 模型 参数 的 梯度 。 最 后 使 用 time_tensorflow_run 评测 backward 
运算 时 间 ， 这 里 target 为 求解 梯度 的 操作 grad，keep_prob 为 0.5。 

time tensorflow run(sess, predictions, {keep prob:1.0}, "Forward") 
objective = tf.nn.12_loss(fc8) 
grad = tf.gradients(objective, p) 


time _tensorflow_run(sess, grad, {keep prob:9.5}, “Forward-backward") 


我 们 设置 batch size 为 32, AA VGGNet-16 的 模型 体积 比较 大 ， 如 果 使 用 较 大 的 
batch size,GPU 显存 会 不 够 用 。 最 后 执行 评测 的 主 函 数 run_benchmark(), ,测试 VGGNet-16 
在 TensorFlow 上 的 forward 和 backward 耗 时 。 
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batch size=32 
num_batches=10@ 


run_benchmark() 


forward 计算 时 平均 每 个 batch 的 耗 时 为 0.152s， 相 比 于 同样 batch size 的 AlexNet 的 
0.026s ( 如 果 无 LRN 则 是 0.007s ) 慢 6 倍 。 这 说 明 VGGNet-16 的 计算 复杂 度 相 比 AlexNet 
确实 高 了 很 多 ， 不 过 同样 也 市 来 了 很 大 的 准确 率 提升 。 

2016-12-01 17:13:31.761549: step ©, duration = 0.151 
2016-12-01 17:13:33.281319: step 10, duration = 0.151 


2016-12-01 17:13:34.789695: step 20, duration = 0.151 
2016-12-01 17:13:36.311346: step 30, duration = 9.158 
2016-12-01 17:13:37.824452: step 40, duration = 0.153 
2016-12-01 17:13:39.341594: step 50, duration = 0.152 
2016-12-01 17:13:40.859964: step 60, duration = 0.152 
2016-12-01 17:13:42.379664: step 70, duration = 0.153 
2016-12-01 17:13:43.900802: step 80, duration = 0.153 


2016-12-01 17:13:45.424529: step 90, duration = 0.151 
2016-12-01 17:13:46.795223: Forward across 100 steps, 0.152 +/- 0.002 sec / 
batch 


而 backward 求解 梯度 时 ,每 个 batch 的 平均 耗 时 达到 0.617s, 相 比 于 AlexNet 的 0.078s 
也 高 了 很 多 。 
2016-12-01 17:13:57.078991: step ð, duration = 0.613 
2016-12-01 17:14:03.241287: step 10, duration = 0.621 
2016-12-01 17:14:09.398178: step 20, duration = 0.616 
2016-12-01 17:14:15.555161: step 30, duration = 0.617 
2016-12-01 17:14:21.713196: step 40, duration = 0.614 
2016-12-01 17:14:27.879734: step 50, duration = 0.614 
2016-12-01 17:14:34.044447: step 60, duration = 0.614 
2016-12-01 17:14:40.204176: step 70, duration = 9.619 
2016-12-01 17:14:46.373392: step 80, duration = @.615 
2016-12-01 17:14:52.550798: step 90, duration = 0.620 
2016-12-01 17:14:58.123548: Forward-backward across 100 steps, 0.617 +/- 0.0 
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92 sec / batch 


至 此 YGGNet-16 的 实现 和 评测 就 完成 了 。VGG 系列 的 卷 积 神经 网 络 在 ILSVRC 2014 
比赛 中 最 终 达 到 了 7.3% 的 错误 率 ， 相 比 AlexNet 进步 非常 大 , 读者 可 以 使 用 ImageNet 数 
据 集 复 现 其 结果 。VGGNet 的 模型 参数 虽然 比 AlexNet Z, 但 反而 只 需要 较 少 的 迭代 次 数 
融 可 以 收 伍 ， 主 要 原因 是 更 次 的 网 络 和 更 小 的 卷 积 核 冲 来 的 隐 式 的 正则 化 效果 。VGGNet 
任 借 其 相对 不 算 很 高 的 复杂 度 和 优秀 的 分 类 性 能 ,成 为 了 一 代 经 典 的 卷 积 神经 网 络 , 直到 
现在 依然 被 应 用 在 很 多 地 方 。 


6.3 TensorFlow 实现 Google Inception Net 


Google Inception Net 首次 出 现在 ILSVRC 2014 的 比赛 中 (和 VGGNet 同年 )， 就 以 
较 大 优势 取得 了 第 一 名 。 那 届 比赛 中 的 Inception Net 通常 被 称 为 Inception V1, 它 最 大 的 
特点 是 控制 了 计算 量 和 参数 量 的 同时 ,获得 了 非常 好 的 分 类 性 能 一 一 top-5 错误 率 6.67%, 
只 有 AlexNet 的 一 半 不 到 。Inception V1 有 22 层 深 bt AlexNet 的 8 层 或 者 VGGNet 的 
19 层 还 要 更 深 。 但 其 计算 量 只 有 15 亿 次 浮 点 运算 ,同时 只 有 500 万 的 参数 量 , 仅 为 AlexNet 
参数 量 (6000 万 ) 的 12， 却 可 以 达到 远 胜 于 AlexNet 的 准确 率 ， 可 以 说 是 非常 优秀 并 
且 非 常 实用 的 模型 。 Inception V1 降低 参数 量 的 目的 有 两 点 , 第 一 ,参数 越 多 模型 越 庞大 ， 
需要 供 模 型 学 习 的 数据 量 就 越 大 ， 而 目前 高 质量 的 数据 非常 昂贵 ; 第 二 , 参数 越 多 , 耗费 
的 计算 资源 也 会 更 大 。Inception V1 参数 少 但 效果 好 的 原因 除了 模型 层 数 更 深 、 表 达能 
更 强 外 , 还 有 两 点 : 一 是 去 除了 最 后 的 全 连接 层 , 用 全 局 平均 池 化 层 ( 即将 图 片 尺 寸 变 为 
1x1) 来 取代 它 。 全 连接 层 几乎 占据 了 AlexNet 或 VGGNet 中 90% 的 参数 量 ， 而 且 会 引起 
NUS, 去 除 全 连接 层 后 模型 训练 更 快 并 且 减 轻 了 过 拟 合 。 用 全 局 平均 池 化 层 取 代 全 连接 
层 的 做 法 借鉴 了 Network In Network ( 以 下 简称 NIN ) 论文 。 二 是 Inception V1 中 精心 设 
计 的 Inception Module 提高 了 参数 的 利用 效率 ， 其 结构 如 图 6-10 所 示 。 这 一 部 分 也 借鉴 
T NIN 的 思想 ， 形 象 的 解释 就 是 Inception Module 本 身 如 同 大 网 络 中 的 一 个 小 网 络 ， 其 
结构 可 以 反复 堆 释 在 一 起 形成 大 网 络 。 不 过 Inception V1 kk NIN 更 进一步 的 是 增加 了 分 
支 网 络 ，NIN 则 主要 是 级 联 的 卷 积 层 和 MLPConv 层 。 一 般 来 说 卷 积 层 要 提升 表达 能 
主要 依靠 增加 输出 通道 数 , 但 副作用 是 计算 量 增 大 和 过 拟 合 。 每 一 个 输出 通道 对 应 一 个 滤 
波 右 ,同一 个 滤波 器 共享 参数 ， 只 能 提取 一 类 特征 ,因此 一 个 输出 通道 只 能 做 一 种 特征 处 
理 。 而 NIN 中 的 MLPConv 则 拥有 更 强大 的 能 力 ， 人 允许 在 输出 通道 之 间 组 合 信息 ， 因 此 
效果 明显 。 可 以 说 ，MLPConv 基本 等 效 于 普通 卷 积 层 后 再 连接 1x1 的 卷 积 和 ReLU 激活 
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我 们 再 来 看 Inception Module 的 基本 结构 , 其 中 有 4 个 分 支 : 第 一 个 分 支 对 输入 进行 
1x1 的 卷 积 ,这 其 实 也 是 NIN 中 提出 的 一 个 重要 结构 。1x1 的 卷 积 是 一 个 非常 优秀 的 结构 ， 
它 可 以 跨 通道 组 织 信息 , 提高 网 络 的 表达 能 力 , 同时 可 以 对 输出 通道 升 维和 降 维 。 可 以 看 
到 Inception Module 的 4 个 分 支 都 用 到 了 1x1 卷 积 ,来 进行 低 成 本 ( 计算 量 比 3x3 小 很 多 ) 
的 跨 通 道 的 特征 变换 。 第 二 个 分 支 先 使 用 了 1x1 卷 积 ， 然 后 连接 3x3 卷 积 ， 相 当 于 进行 
了 两 次 特征 变换 。 第 三 个 分 支 类 似 ， 先 是 1x1 的 卷 积 ， 然 后 连接 5x5 卷 积 。 最 后 一 个 分 
SCM 3x3 最 大 池 化 后 直接 使 用 1x1 卷 积 。 我 们 可 以 发 现 ， 有 的 分 支 只 使 用 1x1 卷 积 ， 
有 的 分 支 使 用 了 其 他 尺寸 的 卷 积 时 也 会 再 使 用 1x1 卷 积 ， 这 是 因为 1x1 卷 积 的 性 价 比 很 
高 ， 用 很 小 的 计算 量 就 能 增加 一 层 特征 变换 和 非 线 性 化 。Inception Module 的 4 个 分 支 在 
最 后 通过 一 个 聚合 操作 合并 ( 在 输出 通道 数 这 个 维度 上 聚合 )。Inception Module 中 包含 
了 3 种 不 同 尺 寸 的 卷 积 和 1 个 最 大 池 化 ， 增 加 了 网 络 对 不 同 尺 度 的 适应 性 ， 这 一 部 分 和 
Multi-Scale 的 思想 类 似 。 早 期 计算 机 视觉 的 研究 中 , 受 灵 长 类 神经 视觉 系统 的 局 发 ，Serre 
使 用 不 同 尺 寸 的 Gabor 滤波 器 处 理 不 同 尺 寸 的 图 片 ，Inception V1 借鉴 了 这 种 思想 。 
Inception V1 的 论文 中 指出 ，Inception Module 可 以 让 网 络 的 深度 和 宽度 高 效率 地 扩 元 ， 


提升 准确 率 且 不 致 于 过 拟 合 。 
concatenation 


a 


3x3 convolutions 5x5 convolutions 1x1 convolutions 


1x1 convolutions 1x1 convolutions i 3x3 max pooling | 
Previous layer 


6-10 Inception Module 结构 图 


人 脑 神经 元 的 连接 是 稀疏 的 ,因此 研究 者 认为 大 型 神经 网 络 的 合理 的 连接 方式 应 该 也 
是 稀疏 的 。 稀 疏 结 构 是 非常 适合 神经 网 络 的 一 种 结构 , 尤其 是 对 非常 大 型 、 非 常 次 的 神经 
网 络 ， 可 以 减轻 过 拟 合并 降低 计算 量 ， 例 如 卷 积 神经 网 络 就 是 稀疏 的 连接 。Inception Net 
的 主要 目标 就 是 找到 最 优 的 稀疏 结构 单元 ( 即 Inception Module )， 论 文中 提 到 其 稀疏 结 
构 基于 Hebbian 原理 , 这 里 简单 解释 一 下 Hebbian RE: 神经 反射 活动 的 持续 与 重复 会 导 
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致 神经 元 连接 稳定 性 的 持久 提升 ， 当 两 个 神经 元 细胞 A 和 B 距离 很 近 ， 并 且 A 参与 了 对 
B 重复 、 持 续 的 兴奋， 那么 某 些 代谢 变化 会 导致 A 将 作为 能 使 B 兴 香 的 细胞 。 总 结 一 下 
即 “ 一 起 发 射 的 神经 元 会 连 在 一 起 ”( Cells that fire together, wire together), 学习 过 程 中 
的 刺激 会 使 神经 元 间 的 突 触 强度 增加 。 受 Hebbian 原理 局 发 , 男 一 篇 文 草 Provable Bounds 
for Learning Some Deep Representations 提出 , 如 果 数 据 集 的 概率 分 布 可 以 被 一 个 很 大 很 
黎 芷 的 神经 网 络 所 表达 , 那么 构筑 这 个 网 络 的 最 佳 方法 是 逐 层 构筑 网 络 : 将 上 一 层 高 度 相 
X (correlated ) 的 万 点 聚 类 , 并 将 聚 类 出 来 的 每 一 个 小 族 ( cluster ) 连接 到 一 起 , 如 图 6-11 
所 示 。 这 个 相关 性 高 的 节点 应 该 被 连接 在 一 起 的 结论 ， 即 是 从 神经 网 络 的 角度 对 Hebbian 
原理 有 效 性 的 证 明 。 


h® 





图 6-11 将 高 度 相 关 的 节点 连接 在 一 起 ， 形 成 稀疏 网 络 


因此 一 个 “好 ”的 稀疏 结构 ,应 该 是 符合 Hebbian 原理 的 , 我 们 应 该 把 相关 性 高 的 一 
族 神 经 元 节点 连接 在 一 起 。 在 普通 的 数据 集中 , 这 可 能 需要 对 神经 元 节点 聚 类 , 但 是 在 图 
片 数据 中 , 天 然 的 就 是 临近 区 域 的 数据 相关 性 高 , 因此 相 邻 的 像素 点 被 卷 积 操作 连接 在 一 
起 。 而 我 们 可 能 有 多 个 卷 积 核 , 在 同一 空间 位 置 但 在 不 同 通道 的 卷 积 核 的 输出 结果 相关 性 
极 高 。 因 此 ， 一 个 1x1 的 卷 积 就 可 以 很 自然 地 把 这 些 相关 性 很 高 的 、 在 同一 个 空间 位 置 
但 是 不 同 通道 的 特征 连接 在 一 起 ， 这 就 是 为 什么 1x1 卷 积 这 么 频繁 地 被 应 用 到 Inception 
Net 中 的 原因 。1x1 卷 积 所 连接 的 节点 的 相关 性 是 最 高 的 ， 而 稍微 大 一 点 尺寸 的 卷 积 ， 比 
如 3x3、5x5 的 卷 积 所 连接 的 节点 相关 性 也 很 高 ， 因 此 也 可 以 适当 地 使 用 一 些 大 尺寸 的 卷 
积 ,增加 多 样 性 ( diversity )。 最 后 Inception Module 通过 4 个 分 支 中 不 同 尺 寸 的 1x1 、3x3、 
5x5 等 小 型 卷 积 将 相关 性 很 高 的 节点 连接 在 一 起 ,就 完成 了 其 设计 初衷 , 构建 出 了 很 高 效 
的 符合 Hebbian 原理 的 稀疏 结构 。 

在 Inception Module 中 ,通常 1x1 卷 积 的 比例 ( 输出 通道 数 占 比 ) 最 高 ，3x3 卷 积 和 


5x5 卷 积 稍 低 。 而 在 整个 网 络 中 ， 会 有 多 个 堆 倒 的 Inception Module, 我们 希望 靠 后 的 
Inception Module 可 以 捕捉 更 高 阶 的 抽象 特征 ， 因 此 靠 后 的 Inception Module 的 卷 积 的 空 
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则 集中 度 应 该 逐渐 降低 , 这 样 可 以 捕获 更 大 面积 的 特征 。 因 此 , 越 靠 后 的 Inception Module 
中 ，3x3 和 5x5 这 两 个 大 面积 的 卷 积 核 的 占 比 ( 输出 通道 数 ) 应 该 更 多 。 


Inception Net 有 22 层 深 ,除了 最 后 一 层 的 输出 ， 其 中 间 节 点 的 分 类 效果 也 很 好 。 因 
此 在 Inception Net 中 ,还 使 用 到 了 辅助 分 类 节点 (auxiliary classifiers )， 即 将 中 间 某 一 层 
的 输出 用 作 分 类 ， 并 按 一 个 较 小 的 权重 ( 0.3 ) 加 到 最 终 分 类 结果 中 。 这 样 相当 于 做 了 模 
型 融合 ， 同 时 给 网 络 增加 了 反 向 传播 的 梯度 信号 ， 也 提供 了 人 额外 的 正则 化 ， 对 于 整个 
Inception Net 的 训练 很 有 神 益 。 


当年 的 Inception V1 还 是 跑 在 TensorFlow AY AY 2E DistBelief 上 的 ,并且 只 运行 在 CPU 
上 。 当 时 使 用 了 异步 的 SGD 训练 , 学习 速 率 每 迭代 8 个 epoch 降低 4%。 同 时 ，Inception 
V1 也 使 用 了 Multi-Scale, Multi-Crop 等 数据 增强 方法 ， 并 在 不 同 的 采样 数据 上 训练 了 7 
个 模型 进行 融合 ， 得 到 了 最 后 的 ILSVRC 2014 的 比赛 成 绩 一 一 top-5 错误 率 6.67%。 





同时 ，Google Inception Net 还 是 一 个 大 家 族 ， 包 括 : 


2014 年 9 月 的 论文 Going Deeper with Convolutions 提出 的 Inception V1 (top-5 
HIRE 6.67% ) o 

2015 年 2 月 的 论文 Batch Normalization: Accelerating Deep Network Training by 
Reducing Internal Covariate 提出 的 Inception V2 ( top-5 错误 率 4.8% ) o 

2015 年 12 月 的 论文 Rethinking the Inception Architecture for Computer Vision 提 
出 的 Inception V3 ( top-5 错误 率 3.5% ) o 

2016 年 2 月 的 论文 Inception-v4, Inception-ResNet and the Impact of Residual 
Connections on Learning 提出 的 Inception V4 ( top-5 错误 率 3.08% ) 。 


Inception V2 学 习 了 VGGNet， 用 两 个 3x3 HERRE 5x5 的 大 卷 积 ( 用 以 降低 参数 
量 并 减轻 过 拟 合 )， 还 提出 了 著名 的 Batch Normalization ( 以 下 简称 BN ) 方法 。BN 是 一 
个 非常 有 效 的 正则 化 方法 , 可 以 让 大 型 卷 积 网 络 的 训练 速度 加 快 很 多 倍 , 同时 收敛 后 的 分 
类 准确 率 也 可 以 得 到 大 幅 提 高 。BN 在 用 于 神经 网 络 某 层 时 ， 会 对 每 一 个 mini-batch 数据 
的 内 部 进行 标准 化 ( normalization ) 处 理 ， 使 输出 规范 化 到 N(0,1) 的 正 态 分 布 ， 减 少 了 
Internal Covariate Shift ( 内 部 神经 元 分 布 的 改变 )。BN 的 论文 指出 ， 传 统 的 深度 神经 网 
络 在 训练 时 , 每 一 层 的 输入 的 分 布 都 在 变化 ,导致 训练 变 得 困难 , 我 们 只 能 使 用 一 个 很 小 
的 学 习 速 率 解 决 这 个 问题 。 而 对 每 一 层 使 用 BN 之 后 ， 我 们 就 可 以 有 效 地 解决 这 个 问题 ， 
学 习 速 率 可 以 增 大 很 多 倍 ， 达 到 之 前 的 准确 率 所 需要 的 迭代 次 数 只 有 1/14， 训 练 时 间 大 
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大 缩短 。 而 达到 之 前 的 准确 率 后 , 可 以 继续 训练 , 并 最 终 取得 远 超 于 Inception V1 模型 的 
性 能 top-5 错误 率 4.8%， 已 经 优 于 人 眼 水 平 。 因 为 BN 某 种 意义 上 还 起 到 了 正则 化 的 
作用 ， 所 以 可 以 减少 或 者 取消 Dropout， 简 化 网 络 结构 。 


当然 ， 只 是 单纯 地 使 用 BN 获得 的 增益 还 个 明显 , 还 需要 一 些 相应 的 调整 : 增 大 学 习 
速率 并 加 快 学 习 聚 减速 度 以 适用 BN 规范 化 后 的 数据 ; 去除 Dropout 并 减轻 L2 正则 (A 
BN 已 起 到 正则 化 的 作用 汶 ABR LRN; 更 彻底 地 对 训练 样本 进行 shuffle; 减少 数据 增强 
过 程 中 对 数据 的 光学 畸变 (因为 BN 训练 更 快 , 每 个 样本 被 训练 的 次 数 更 少 , 因此 更 真实 
的 样本 对 训练 更 有 帮助 )。 在 使 用 了 这 些 措施 后 ，Inception V2 在 训练 达到 Inception V1 
的 准确 率 时 快 了 14 倍 ， 并 且 模 型 在 收敛 时 的 准确 率 上 限 更 高 。 


而 Inception V3 网 络 则 主要 有 两 方面 的 改造 : 一 是 引入 了 Factorization into small 
convolutions 的 思想 ， 将 一 个 较 大 的 二 维 卷 积 拆 成 两 个 较 小 的 一 维 卷 积 ， 比 如 将 7x7 卷 积 
拆 成 1x7 卷 积 和 7x1 卷 积 ， 或 者 将 3x3 卷 积 拆 成 1x3 卷 积 和 3x1 卷 积 ， 如 图 6-12 所 示 。 
一 方面 节约 了 大 量 参数 ， 加 速 运算 并 减轻 了 过 拟 合 〈 比 将 7x7 卷 积 拆 成 1x7 卷 积 和 7x1 
卷 积 ， 比 拆 成 3 个 3x3 卷 积 更 节约 参数 )， 同 时 增加 了 一 层 非 线 性 扩展 模型 表达 能 力 。 论 
文中 指出 , 这 种 非 对 称 的 卷 积 结构 拆 分 , 其 结果 比 对 称 地 拆 为 几 个 相同 的 小 卷 积 核 效果 更 
明显 ， 可 以 处 理 更 多 、 更 丰富 的 空间 特征 ， 增 加 特征 多 样 性 。 








6-12 ”将 一 个 3x3 卷 积 拆 成 1x3 卷 积 和 3x1 卷 积 


男 一 方面 ，Inception V3 优化 了 Inception Module 的 结构 ， 现 在 Inception Module 有 
35x35. 17x17 和 8x8 三 种 不 同 结构 ， 如 图 6-13 所 示 。 这 些 Inception Module 只 在 网 络 的 
后 部 出 现 , 前 部 还 是 普通 的 卷 积 层 。 并 且 Inception V3 除了 在 Inception Module 中 使 用 分 
L, 还 在 分 支 中 使 用 了 分 文 ( 8x8 的 结构 中 ), 可 以 说 是 Network In Network In Network. 
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Filter Concat 


Filter Concat 





Filter Concat 





6-13 Inception V3 中 三 种 结构 的 Inception Module 


而 Inception V4 相 比 V3 主要 是 结合 了 微软 的 ResNet， 而 ResNet 将 在 6.4. 市 单独 讲 
解 , 这 里 不 多 做 袭 述 。 因 此 本 节 将 实现 的 是 Inception V3, 其 整个 网 络 结构 如 表 6-1 所 示 。 
由 于 Google Inception Net V3 相对 比较 复杂 ， 所 以 这 里 使 用 共 contrib.slim 辅助 设计 这 个 
网 络 。contrib.slim 中 的 一 些 功 能 和 组 件 可 以 大 大 减少 设计 Inception Net 的 代码 量 ， 我们 
只 需要 少量 代码 即 可 构建 好 有 42 层次 的 mception V3。 


% 6-1 Inception V3 网 络 结构 


类 Æ kernel 尺寸 / 步 长 (或 注释 ) 输入 尺寸 
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kernel 尺寸 / 步 长 〈 或 注释 ) 输入 尺寸 


N 
Le 


卷 积 3x3 / 1 149x149x32 
vk ome 
Inception 模块 组 35x35x288 
Inception 模块 组 17x17x768 
Inception 模块 组 8x8x1280 
池 化 8x8 8x8x2048 


目 先 定义 一 个 简单 的 函数 trunc_normal， 产 生 截断 的 正 态 分 布 。 本 节 代 码 主要 来 自 
TensorFlow 的 开 产 实现 ma 


import tensorflow as tf 
slim = tf.contrib.slim 


trunc_normal = lambda stddev: tf.truncated_normal_initializer(0.0, stddev) 


下 面 定 义 函 数 inception _v3_arg_ scope, 用 来 生成 网 络 中 经 常用 到 的 函数 的 默认 参数 ， 
比如 卷 积 的 激活 了 水 数 、 权 重 初 始 化 方式 、 标 准 化 器 等 。 设 置 L2 正则 的 weight decay 默认 
值 为 0.00004, 标准 差 stddev 默认 值 为 0.1， 参 数 batch norm var collection 默认 值 为 
moving vars。 接 下 来 ， 定 义 batch normalization 的 参数 字典 ， 定 义 其 衰减 系数 decay 为 
0.9997, epsilon 为 0.001, updates_collctions 为 tf.GrpahKeys.UPDATE_OPS, REFR 
variables collections 中 beta 和 gamma 均 设 置 为 None, moving mean 和 moving variance 


均 设 置 为 前 面 的 batch_norm_ var collection. 


接 下 来 使 用 slim.arg_scope， 这 是 一 个 非常 有 用 的 工具 ， 它 可 以 给 函数 的 参数 自动 赋 
PRA WE. BSN, X4 with slim.arg_scope([slim.conv2d, slim.fully connected], weig 
hts_regularizer=slim.12_regularizer(weight_decay)), 会 对 [slim.conv2d, slim.fully_connected] 
AT AWB Sy BOOM ,将 参数 weights_regularizer 的 值 默认 设 为 slim.12 regularizer(w 
eight_decay)。 使 用 了 slim.arg_scope 后 就 不 需要 每 次 都 重复 设置 参数 了 ， 只 需要 在 有 修改 
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Ii. fe PK, HE—* slim.arg_scope, WA#AEA meARy slim.conv2d 的 几 个 参数 赋 
TRWA, 其 权重 初始 化 器 weights initializer 设置 为 tunc_normal(stddev) ,激活 函数 设置 
为 ReLU， 标 准 化 器 设置 为 slim.batch_norm， 标 准 化 器 的 参数 设置 为 前 面 定 义 的 batch_no 
rm_params。 最 后 返回 定义 好 的 scope. 


因为 事先 定义 好 了 slim.conv2d 中 的 各 种 默认 人 参数， 包括 激活 函数 和 标准 化 太 ， 因 此 
后 面 定义 一 个 卷 积 层 将 会 变 得 非常 方便 。 我 们 可 以 用 一 行 代码 定义 一 个 卷 积 层 , 整体 代码 
会 变 得 非常 简洁 美观 ， 同 时 设计 网 络 的 工作 量 也 会 大 大 减轻 。 
def inception v3 arg scope(weight decay=8.66664， 
stddev=@.1, 


batch_norm_var_collection='moving vars'): 


batch_norm_params = { 
' decay `: @.9997, 
‘epsilon': 02001; 
'updates_collections': tf.GraphKeys.UPDATE_OPS, 
'variables_collections': { 
'beta': None, 
'gamma': None, 
'moving_mean': [batch_norm_var_collection], 


‘moving variance’: [batch_norm_var_collection], 


with slim.arg_scope([slim.conv2d, slim.fully_connected], 
weights regularizer=slim.12_regularizer(weight_decay) ): 

with slim.arg_scope( | 
[slim.conv2d], 
weights initializer=tf.truncated_normal_initializer(stddev=stddev) , 
activation fn=tf.nn.relu, 
normalizer_fn=slim.batch_norm, 
normalizer_params=batch_norm_params) as sc: 


return sc 
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接 下 来 我 们 就 定义 国 数 inception_v3_base, 它 可 以 生成 Inception V3 网 络 的 卷 积 部 分 ， 
参数 inputs 为 输入 的 图 片 数据 的 tensor, scope 为 包含 了 国 数 默认 参数 的 环境 。 我 们 定义 
一 个 字典 表 end points， 用 来 保存 某 些 关键 和 点 供 之 后 使 用 。 接 着 册 使 用 slim.arg scope, 
对 slim.conv2d、slim.max pool2d 和 slim avg pool2d 这 三 个 函数 的 参数 设置 默认 值 ， 将 
stride 设 为 1, padding 设 为 VALID。 下 面 正 式 开始 定义 Inception V3 的 网 络 结构 ,首先 是 
前 面 的 非 Inception Module 的 卷 积 层 。 这 里 直接 使 用 slim.conv2d 创建 卷 积 层 , slim.conv2d 
的 第 1 个 参数 为 输入 的 tensor， 第 2 个 参数 为 输出 的 通道 数 ， 第 3 个 参数 为 卷 积 核 尺寸 ， 
第 4 个 参数 为 步 长 stride， 第 5 个 参数 为 padding 模式 。 我 们 的 第 一 个 卷 积 层 的 输出 通道 
数 为 32， 卷 积 核 尺 寸 为 3x3， 步 长 为 2，padding 模式 则 是 默认 的 VALID。 后面 的 几 个 卷 
积 层 采 用 相同 的 形式 ， 按 照 论文 中 的 定义 ， 隶 层 定 义 好 网 络 结构 。 因 为 使 用 了 slim 及 
slim.arg_scope, 我 们 一 行 代 码 束 可 以 定义 好 一 个 卷 积 层 , 相 比 之 前 AlexNet 的 实现 中 使 用 
好 几 行 代码 定义 一 个 卷 积 层 ， 或 是 VGGNet 中 专门 写 一 个 函数 来 定义 卷 积 层 ， 都 更 加 方 
便 。 


我 们 可 以 观察 到 ， 在 前 面 几 个 普通 的 非 Inception Module 的 卷 积 层 中 ， 主 要 使 用 了 
3x3 的 小 卷 积 核 ， 这 是 充分 借鉴 了 VGGNet 的 结构 。 同 时 ， Inception V3 论文 中 也 提出 了 
Factorization into small convolutions 思想 , 利用 两 个 1 维 卷 积 模拟 大 尺寸 的 2 维 卷 积 , 减 
少 参 数量 同时 增加 非 线性 。 前 面 几 层 卷 积 中 还 有 一 层 1x1 卷 积 ， 这 也 是 前 面 提 到 的 
Inception Module 中 经 前 使 用 的 结构 之 一 ， 可 低 成 本 的 跨 通 道 的 对 特征 进行 组 合 。 另 外 可 
以 看 到 ,除了 第 一 个 卷 积 层 步 长 为 2, 其 余 的 卷 积 层 步 长 均 为 1, 而 池 化 层 则 是 尺寸 为 3x3、 
步 长 为 2 WEAR, XÆ AlexNet 中 使 用 过 的 结构 。 网 络 的 输入 数据 尺寸 为 
299x299x3， 在 经 历 3 个 步 长 为 2 的 层 之 后 ， 尺 寸 最 后 缩小 为 35x35x192， 空 间 尺 寸 大 大 
降低 ,但 是 输出 通道 增加 了 很 多 。 这 部 分 代码 中 一 共有 5 个 卷 积 层 ，2 个 池 化 层 ， 实 现 了 
对 输入 图 片 数 据 的 尺寸 压缩 ， 并 对 图 片 特征 进行 了 抽象 。 


def inception v3 base(inputs, scope=None): 


end points = {} 
with tf.variable scope(scope, 'InceptionV3', [inputs]): 
with slim.arg _ scope([slim.conv2d, slim.max_pool2d, slim.avg pool2d], 
stride=1, padding='VALID'): 
net = slim.conv2d(inputs, 32, [3, 3], stride=2, scope='Conv2d_ 1a 3x3') 
net = slim.conv2d(net, 32, [3, 3], scope='Conv2d_ 2a 3x3') 
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net = slim.conv2d(net, 64, [3, 3], padding='SAME', 
scope='Conv2d_2b 3x3') 

net = slim.max_pool2d(net, [3, 3], stride=2, scope='MaxPool 3a 3x3') 

net = slim.conv2d(net, 80, [1, 1], scope='Conv2d_ 3b 1x1") 

net = slim.conv2d(net, 192, [3, 3], scope='Conv2d 4a 3x3") 

net = slim.max_pool2d(net, [3, 3], stride=2, scope='MaxPool_ 5a 3x3') 


接 下 来 就 将 是 三 个 连续 的 Inception 模块 组 ， 这 三 个 Inception 模块 组 中 各 自分 别 有 多 
个 Inception Module， 这 部 分 的 网 络 结构 即 是 Inception V3 的 精华 所 在 。 每 个 Inception 
模块 组 内 部 的 几 个 Inception Module 结构 非常 类 似 ， 但 存在 一 些 细 市 不 同 。 


第 1 个 Inception 模块 组 包含 了 3 个 结构 类 似 的 Inception Module， 它 们 的 结构 和 图 
6-13 中 第 一 幅 图 非常 相似 。 其 中 第 1 个 Inception Module 的 名 称 为 Mixed_ 5b。 我 们 先 使 
用 slim.arg_scope 设置 所 有 Inception 模块 组 的 默认 参数 ， 将 所 有 卷 积 层 、 最 大 池 化 、 平 均 
闻 化 层 的 步 长 设 为 1，padding 模式 设 为 SAME。 然 后 设置 这 个 Inception Module 的 
variable scope 名 称 为 Mixed 5b。 这 个 Inception Module 中 有 4 个 分 文 ， 从 Branch_0 到 
Branch 3， 第 一 个 分 支 为 有 64 输出 通道 的 1x1 AR; 第 2 个 分 支 为 有 48 输出 通道 的 1x1 
卷 积 ， 连 接 有 64 输出 通道 的 5x5 卷 积 ; i 3 个 分 支 为 有 64 输出 通道 的 1x1 AA, Fe 
续 连 接 2 个 有 96 输出 通道 的 3x3 卷 积 ; 第 4 个 分 支 为 3x3 的 平均 池 化 ， 连 接 有 32 输出 
通道 的 1x1 卷 积 。 最 后 ， 使 用 tf.concat 4 个 分 支 的 输出 合并 在 一 起 ( 在 第 3 个 维度 合 
并 ， 即 输出 通道 上 合并 )， 生 成 这 个 Inception Module 的 最 终 输 出 。 因 为 这 里 所 有 的 层 步 
长 均 为 1, 并 且 padding 模式 为 SAME, 所 以 图 片 的 尺寸 并 不 会 缩小 , 依然 维持 在 35x35. 
不 过 通道 数 增加 了 ，4 个 分 支 的 输出 通道 数 之 和 64+64+96+32=256， 即 最 终 输 出 的 tensor 
尺寸 为 35x35x256。 这 里 需 注 意 , 第 1 个 jn 模块 组 中 所 有 Inception Module 输出 
的 图 片 尺 寸 均 为 33x35， 但 是 后 两 个 Inception Module 的 通道 数 会 发 生变 化 。 


with slim.arg_scope([slim.conv2d, slim.max_pool2d, slim.avg_pool2d], 
stride=1, padding='SAME'): 
with tf.variable_ scope('Mixed_5b'): 
with tf.variable_scope('Branch_@'): 
branch 6 = slim.conv2d(net, 64, [1, 1], scope="Conv2d_@a_1x1") 
with tf.variable scope('‘Branch_1'): 
branch 1 = slim.conv2d(net, 48, [1, 1], scope='Conv2d_@a_1x1") 
branch_1 = slim.conv2d(branch_1, 64, [5, 5], 
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scope='Conv2d_0b_5x5') 
with tf.variable_scope('Branch_2'): 
branch_2 = slim.conv2d(net, 64, [1, 1], scope='Conv2d_0a_1x1') 
branch_2 = rh 2 9636:33 3], 
scope='Conv2d_@b_ 3x3") 
branch_2 = slim.conv2d(branch_2, 96, [3, 3], 
scope='Conv2d_@c_3x3') 
with tf.variable scope('Branch_3'): 
branch_3 = slim.avg pool2d(net, [3, 3], scope='AvgPool 6a 3x3') 
branch_3 = slim.conv2d(branch_3, 32, [1, 1], 
scope='Conv2d_ @b 1x1") 
net = tf.concat([branch_@, branch_1, branch_2, branch 3], 3) 





接 下 来 是 第 1 个 Inception 模块 组 的 第 2 个 Inception Module 一 一 Mixed 5c, 这 里 依然 
使 用 前 面 设置 的 默认 参数 : 步 长 为 1，padding 模式 为 SAME。 这 个 Inception Module [F] 
样 有 4 个 分 支 ， 唯一 不 同 的 是 第 4 个 分 支 最 后 接 的 是 64 输出 通道 的 1xl 卷 积 ， 而 此 前 是 
32 输出 通 旭 。 因 此 ， 我 们 输出 tensor 的 最 终 尺寸 为 35x35x288， 输 出 通道 数 相 比 之 前 增 
加 了 32. 


with tf.variable_scope('Mixed_5c'): 
with tf.variable scope('Branch 08'): 
branch 6 = slim.conv2d(net, 64, [1, 1], scope='Conv2d 6a 1x1') 
with tf.variable scope('Branch 1"): | 
branch_1 = slim.conv2d(net, 48, [1, 1], scope='Conv2d @b 1x1') 
branch_1 = slim.conv2d(branch_1, 64, [5, 5], 
| scope='Conv_1_@c_5x5') 
with tf.variable_scope('Branch 2'): 
branch_2 = slim.conv2d(net, 64, [1, 1], scope="Conv2d_@a 1x1") 
branch_2 = slim.conv2d(branch_2, 96, [3, 3], 
scope='Conv2d_ 6b 3x3') 
branch_2 = slim.conv2d(branch_2, 96, [3, 3], 
scope= Conv2d 6c 3x3') 
with tf.variable ~—scopel Branch_3'): 
branch 3 = slim. avg pool2d(net, [3, 3], scope='AvgPool 6a 3x3') 
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branch_3 = slim.conv2d(branch_3, 64, [1, 1], 
scope='Conv2d_@b_1x1') 
net = tf.concat([branch_@, branch_1, branch_2, branch_3], 3) 





而 第 1 个 Inception 模块 组 的 第 3 个 Inception Module Mixed 5d 和 上 一 个 
Inception Module 完全 相同 ，4 个 分 支 的 结构 、 人 参数 一 模 一 样 ， 输 出 tensor 的 尺寸 也 为 
35x35x288, , 


with tf.variable_scope('Mixed_5d'): 
with tf.variable_ scope('Branch_9'): 
branch 6 = slim.conv2d(net, 64, [1, 1], scope='Conv2d_@a_ 1x1") 
with tf.variable scope('Branch_1"): 
branch 1 = slim.conv2d(net, 48, [1, 1], scope=‘Conv2d_@a_1x1') 
branch_1 = slim.conv2d(branch_1, 64, [5, 5], 
scope='Conv2d_@b_5x5") 
with tf.variable scope('Branch_2'): 
branch_2 = slim.conv2d(net, 64, [1, 1], scope='Conv2d_@a_1x1') 
branch 2 = slim.conv2d(branch_2, 96, [3, 3], 
scope='Conv2d_@b_3x3') 
branch_2 = slim.conv2d(branch_2, 96, [3, 3], 
scope='Conv2d_ @c_3x3') 
with tf.variable_ scope('Branch_3'): 
branch_3 = slim.avg_pool2d(net, [3, 3], scope='AvgPool_@a_3x3') 
branch_3 = slim.conv2d(branch_3, 6452 E a} 
scope='Conv2d_@b_1x1') 
net = tf.concat([branch_®@, branch_1, branch_2, branch_3], 3) 


第 2 个 Inception 模块 组 是 一 个 非常 大 的 模块 组 , 包含 了 5 Inception Module, 其 中 
第 2 个 到 第 5 个 mception Module 的 结构 非常 类 似 ， 它 们 的 结构 如 图 6-13 中 第 二 幅 图 所 
示 。 其 中 第 1 个 Inception Module 名 称 为 Mixed 6a， 它 包含 3 个 分 支 。 第 1 个 分 文 是 一 
个 384 输出 通道 的 3x3 卷 积 ， 这 个 分 支 的 通道 数 一 下 就 超过 了 之 前 的 通道 数 之 和 。 不 过 
步 长 为 2, 因 此 图 片 尺寸 将 会 被 压缩 , 且 padding 模 式 为 VALID, 所 以 图 片 尺寸 缩小 为 17x17; 
第 2 个 分 支 有 三 层 ,分 别 是 一 个 64 输出 通道 的 1x1 卷 积 和 两 个 96 输出 通道 的 3x3 卷 积 。 
这 里 需要 注意 ， 最 后 一 层 的 步 长 为 2，padding 模式 为 VALID， 因 此 图 片 尺 寸 也 被 压缩 ， 
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本 分 支 最 终 输 出 的 tensor 尺寸 为 17x17x96; 第 3 个 分 支 是 一 个 3x3 最 大 池 化 层 ， 步 长 同 
样 为 2，padding 模式 为 VALID ， 因 此 输出 的 tensor 尺寸 为 17x17x256。 最 后 依然 是 使 用 
tficoncat 将 三 个 分 支 在 输出 通 亿 上 上 合并， 最 后 的 输出 尺寸 为 
17x17x(384+96+256)=17x17x768。 在 第 2 个 Inception 模块 组 中 ，5 个 Inception Module 
输出 tensor 的 尺寸 将 全 部 定格 为 17x17x768， 即 图 片 尺寸 和 输出 通道 数 都 没有 发 生变 化 。 


with tf.variable scope('Mixed 6a’): 
with tf.variable scope('Branch 6 ): 
branch 6 = slim.conv2d(net, 384, [3, 3], stride=2, 
padding='VALID', scope='Conv2d_ 1a 1x1') 
with tf.variable scope('Branch_i'): 
branch_1 = slim.conv2d(net, 64, [1, 1], scope='Conv2d 6a 1x1') 
branch_1 = slim.conv2d(branch_1, 96, [3, 3], 
scope='Conv2d_ 6b 3x3') 
branch_1 = slim.conv2d(branch_1, 96, [3, 3], stride=2, 
padding='VALID', scope="'Conv2d 1a 1x1') 
with tf.variable_ scope('Branch_2'): 
branch_2 = slim.max_pool2d(net, [3, 3], stride=2, padding='VALID', 
scope='MaxPool 1a 3x3') 


net = tf.concat([branch_@, branch_1, branch 2], 3) 


接 下 来 是 第 2 个 Inception 模块 组 的 第 2 个 Inception Module——Mixed 6b, EA 4 
个 分 支 。 第 1 个 分 文 是 一 个 简单 的 192 输出 通道 的 1x1 卷 积 ; 第 2 个 分 支 由 3 个 卷 积 层 
组 成 ， 第 1 层 是 128 输出 通道 的 1xl 卷 积 ， 第 2 层 是 128 通道 数 的 1x7 卷 积 ， 第 3 层 是 
192 输出 通道 数 的 7x1 卷 积 。 这 里 即 是 前 面 提 到 的 Factorization into small convolutions 
思想 ， 串 联 的 1x7 卷 积 和 7x1 卷 积 相当 于 合成 了 一 个 7x7 卷 积 ， 不 过 参数 量 大 大 减少 了 
(只 有 后 者 的 2/7 ) 并 减轻 了 过 拟 合 ,同时 多 了 一 个 激活 函数 增强 了 非 线性 特征 变换 ; 第 3 
个 分 支 一 下 子 拥有 了 5 个 卷 积 层 ， 分 别 是 128 输出 通道 的 1x] 卷 积 ，128 输出 通道 的 7x1 
卷 积 ，128 输出 通道 的 1x7 卷 积 ，128 输出 通道 的 7x1 卷 积 和 192 输出 通道 的 1x7 卷 积 。 
这 个 分 支 可 以 算是 利用 Factorization into small convolutions 的 典范 ， 反 复 地 将 7x7 卷 积 
进行 拆 分 ; 最 后 ， 第 e ae 3x3 的 平均 池 化 层 ， 再 连接 192 输出 通道 的 1x] 卷 
Ho RER 4 hte RBH, RA is HRY WF 
17x17x(192+192+192+192)=17x17x768。 
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with tf.variable_scope('Mixed_6b'): 
with tf.variable scope( ‘Branch_@'): 
branch_@ = slim.conv2d(net, 192, [1, 1], scope='Conv2d_@a 1x1") 
with tf.variable scope('Branch 1"): 
branch_1 = slim.conv2d(net, 128, [1, 1], scope='Conv2d_@a 1x1") 
branch 1 = slim.conv2d(branch_1, 128, [1, 7], 
scope='Conv2d_@b_1x7') 
branch_1 = slim.conv2d(branch_1, 192, [7, 1], 
scope='Conv2d_@c_7x1" ) 
with tf.variable scope( ‘Branch 2"): 
branch_2 = slim.conv2d(net, 128, [1, 1], scope='’Conv2d @a _1x1') 
branch_2 = slim.conv2d(branch_2, 128, [7, 1], 
scope='Conv2d_@b_7x1’) 
branch_2 = slim.conv2d(branch 2, 128, [1, 7], 
scope='Conv2d_@c 1x7") 
branch_2 = slim.conv2d(branch_2, 128, [7, 1], 
scope='Conv2d_@d_7x1' ) 
branch 2 = slim.conv2d(branch_2, 192, [1, 7], 
scope='Conv2d_@e 1x7’) 
with tf.variable scope('Branch_3'): 
branch 3 = slim.avg_pool2d(net, [3, 3], scope='AvgPool_@a_3x3') 
branch_3 = slim.conv2d(branch_3, 192, [1, 1], 
scope='Conv2d_@b_1x1") 
net = tf.concat([branch ©, branch_1, branch_2, branch_3], 3) 


然后 是 我 们 第 2 个 Inception 模块 组 的 第 3 个 Inception Module 一 一 Mixed 6c。 
Mixed_6c 和 前 面 一 个 Inception Module 非常 相似 ， 只 有 一 个 地 方 不 同 ， 即 第 2 个 分 文 和 
第 3 个 分 支 中 前 几 个 卷 积 层 的 输出 通道 数 不 同 ,从 128 变 为 了 160, 但 是 这 两 个 分 支 的 最 
终 输 出 通道 数 不 变 ,都 是 192。 其 他 地 方 则 完全 一 致 。 需 要 注意 的 是 , 我 们 的 网 络 每 经 过 
一 个 Inception Module, 即 使 输出 tensor 尺寸 不 变 ,但 是 特征 都 相当 于 被 重新 精炼 了 一 融 ， 
其 中 丰富 的 卷 积 和 非 线 性 化 对 提升 网 络 性 能 帮助 很 大 。 
with tf.variable scope( Mixed 6c'): 


with tf.variable scope(’'Branch 8°"): 
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branch 6 = slim.conv2d(net, 192, [1, 1], scope='Conv2d_@a_1x1') 
with tf.variable_ scope(‘Branch_1'): 
branch 1 = slim.conv2d(net, 160, [1, 1], scope="'Conv2d 86a 1x1") 
branch_1 = slim.conv2d(branch_1, 160, [1, 7], 
scope="Conv2d_@b_1x7') 
slim.conv2d(branch_1, 192, [7, 1], 


branch 1 
scope='Conv2d_ 8c 7x1') 
with tf.variable_scope('‘Branch_2'): 
branch 2 = slim.conv2d(net, 160, [1, 1], scope="Conv2d_ 6a 1ix1') 
branch_2 = slim.conv2d(branch_2, 160, [7, 1], 
scope='Conv2d 6b 7x1") 
branch_2 = slim.conv2d(branch_2, 160, [1, 7], 
scope='Conv2d_@c_1x7') 
branch_2 = slim.conv2d(branch_2, 160, [7, 1], 
scope='Conv2d_@d_7x1") 
branch 2 = slim.conv2d(branch_2, 192, [1, 7], 
Scope='Conv2d_ 6e 1x7') 
with tf.variable_scope(‘Branch_3'): 
branch 3 = slim.avg_pool2d(net, [3, 3], scope='AvgPool @a 3x3') 
branch_3 = slim.conv2d(branch_3, 192, [1, 1], 
| scope='Conv2d_ @b 1x1") 
net = tf.concat([branch_@, branch_1, branch 2, branch_3], 3) 


Mixed 6d 和 前 面 的 Mixed 6c 完全 一 致 , 目的 同样 是 通过 Inception Module 精心 设计 
的 结构 增加 卷 积 和 非 线 性 ， 提 炼 特征 。 


with t variable scope('Mixed 6d‘): 
with tf.variable_scope('Branch_@'): 
branch_@ = slim.conv2d(net, 192, [1, 1], scope='Conv2d_@a 1x1") 
with tf. variable scope('Branch_1'): 
branch_1 = slim.conv2d(net, 160, [1, 1], scope="Conv2d_@a_1x1') 
branch 1 = slim.conv2d(branch_1, 160, [1, 7], 
scope='Conv2d_@b_1x7') 
branch_1 = slim.conv2d(branch_1, 192, [7, 1], 
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scope='Conv2d_@c_7x1’) 
with tf.variable scope('Branch_2"): 
branch_2 = slim.conv2d(net, 160, [1, 1], scope='Conv2d_ @a 1x1") 
branch_2 = slim.conv2d(branch_2, 160, [7, 1], 
scope='Conv2d 6b 7x1") 
branch_2 = slim.conv2d(branch_2, 160, [1, 7], 
scope='Conv2d_@c_1x7’') 
branch_2 = slim.conv2d(branch_2, 160, [7, 1], 
Scope='Conv2d_@d_7x1") 
branch_2 = slim.conv2d(branch_2, 192, [1, 7], 
scope='Conv2d_ 6e 1x7") 
with tf.variable scope( ‘Branch 3’): 
branch_3 = slim.avg pool2d(net, [3, 3], scope="AvgPool @a_ 3x3’) 
branch_3 = slim.conv2d(branch_3, 192, [1, 1], 
scope='Conv2d_@b 1xi') 
net = tf.concat([branch_@, branch_1, branch 2, branch_3], 3) 


Mixed 6e 也 和 前 面 两 个 Inception Module 完全 一 致 。 这 是 第 2 个 Inception 模块 组 的 
最 后 一 个 Inception Module。 我 们 将 Mixed 6e 存储 于 end points 中 ， 作 为 Auxiliary 
Classifier 辅助 模型 的 分 类 。 


with tf.variable scope('Mixed 6e ) : 
with tf.variable scope('Branch_@'): 
branch 6 = slim.conv2d(net, 192, [1, 1], scope='Conv2d 6a 1x1') 
with tf.variable scope( Branch 1 ) : 
branch 1 = slim.conv2d(net, 192, [1, 1], scope='Conv2d_@a_1x1" ) 
branch.1 = Slam convod( branche 192 | To 
scope='Conv2d_@b_1x7') 
branch 1 = slim.conv2d(branch 1, 192875 ks 
scope='Conv2d_ @c_7x1') 
with tf.variable scope(‘Branch_2'): 
branch 2 = slim.conv2d(net, 192, [1, 1], scope='Conv2d_ @a_1x1') 
branch 2 = slim.conv2d(branch_2, 192, [7, 1], 
scope='Conv2d_@b_7x1‘ ) 
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branch 2 = slim.conv2d(branch_2, 192, [1, 7], 
scope='Conv2d_9c_1x7') 
branch_2 = slim.conv2d(branch_2, 192, [7, 1], 
: scope='Conv2d_@d_7x1') 
branch_2 = slim.conv2d(branch_2, 192, [1, 7], 
scope='Conv2d_@e_1x7') 
with tf.variable_scope(‘Branch_3'): 
branch_3 = slim.avg_pool2d(net, [3, 3], scope='AvgPool @a_3x3') 
branch_3 = slim.conv2d(branch_3, 192, [1, 1], 
scope='Conv2d_@b 1x1i') 
net = tf.concat([branch_@, branch_1, branch_2, branch 3], 3) 


end_points[ 'Mixed_6e'] = net 


第 3 个 Inception 模块 组 包含 了 3 Inception Module， 其 中 后 两 个 Inception Module 
ZERQIE RAW, ENIR een 6-13 中 第 三 幅 图 所 示 。 其 中 第 1 个 Inception Module 
a 为 Mixed 7a, 包含 了 3 个 分 第 1 个 分 文 是 192 输出 通道 的 1x] 卷 积 , 再 接 320 
输出 通道 数 的 3x3 卷 积 ee 2 pani 模式 为 VALID ,因此 图 片 尺寸 缩小 为 8x8; 
第 2 个 分 支 有 4 个 卷 积 层 ， 分别 是 192 输出 通道 的 1x1 卷 积 、192 输出 通道 的 1x7 卷 积 、 
192 输出 通道 的 7x1 卷 积 , 以 及 192 输出 通道 的 3x3 卷 积 。 注 意 最 后 一 个 卷 积 层 同 样 步 长 
为 2，padding 为 VALID ， 因 此 最 后 输出 的 tensor 尺寸 为 8x8x192; 第 3 个 分 支 则 是 一 个 
3x3 的 最 大 池 化 层 ， 步 长 为 2，padding 为 VALID ， 而 池 化 层 不 会 对 输出 通道 产生 改变 ， 
因此 这 个 分 文 的 输出 乒 寸 为 8x8x768。 最 后 ， 我 们 将 3 个 分 支 在 输出 通道 上 合并 ， 输 出 
tensor 尺寸 为 8x8x(320+192+768)=8x8x1280。 从 这 个 Inception Module 开始 , 输出 的 图 片 
尺寸 义 被 缩小 了 ， 同 时 通道 数 也 增加 了，tensor 的 辟 size 在 持续 下 降 中 。 


with tf.variable_scope(‘Mixed_7a’): 
with tf.variable_scope('Branch_@'): 
branch 6 = slim.conv2d(net, 192, [1, 1], scope='Conv2d @a 1x1') 
branch 8 = slim.conv2d(branch_@, 320, [3, 3], stride=2, 
padding='VALID', scope='Conv2d_1a_ 3x3') 
with tf.variable scope(‘Branch_1i'): 
branch 1 = slim.conv2d(net, 192, [1, 1], scope='Conv2d_@a 1x1’) 
branch_1 = slim.conv2d(branch_1, 192, [1, 7], 
scope='Conv2d_@b 1x7') 
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branch_1 = slim.conv2d(branch_1, 192, [7, 1], 
scope='Conv2d @c_7x1') 
branch_1 = slim.conv2d(branch_1, 192, [3, 3], stride=2, 
padding='VALID’, scope='Conv2d_1a_3x3') 
with tf.variable scope('Branch_2’): 
branch_2 = slim.max_pool2d(net, [3, 3], stride=2, padding='VALID', 
| Scope='MaxPool 1a 3x3") 
net = tf.concat([branch_@, branch_1, branch_2], 3) 


接 下 来 是 第 3 Inception 模块 组 的 第 2 个 Inception Module, EA 4 个 分 文 。 第 1 
个 分 支 是 一 个 简单 的 320 输出 通道 的 1x] 卷 积 ; 第 2 个 分 支 先是 1 个 384 输出 通道 的 1x1 
卷 积 ， 百 在 分 文 内 开 pace 这 两 个 分 文 分 别 是 384 输出 通道 的 1x3 卷 积 和 384 
输出 通道 的 3x1 卷 积 ， 然 后 使 用 tfconcat 合并 两 个 分 文 ， 得 到 的 输出 tensor 尺寸 为 
BSS HSE =8x8x768; 第 3 个 分 支 更 复杂 先是 448 er 甬道 的 1x1 卷 积 , 然后 是 384 
输出 通道 的 3x3 卷 积 ， 然 后 同样 在 分 支 内 拆 成 两 个 分 支 ， 分 别 是 384 输出 通道 的 1x3 卷 
只 和 384 输出 通道 的 3x1 卷 积 , 最 后 合并 得 到 8x8x768 a 出 tensor; 第 4 个 分 支 是 在 一 
个 3x3 的 平均 池 化 层 后 接 一 个 192 输出 通道 的 1x1 卷 积 。 最 后 ,将 这 个 非常 复杂 的 Inception 
Module 的 4 个 分 支 合 并 在 一 起 ， 得 到 的 输出 tensor RY A 
8x8x(320+768+768+192)=8x8x2048., Bix 这 个 Inception Module, 输出 通道 数 从 1280 增加 
到 了 2048。 


with tf.variable_scope('Mixed_7b'): 
with tf. Variable scope( ‘Branch. ou 
branch 6 = slim.conv2d(net, 320, [1, 1], scope='Conv2d_@a_1x1') 
with tf.variable_ scope('Branch_1'): 
branch 1 = slim.conv2d(net, 384, [1, 1], scopé='Conv2d_@a_1x1" ) 
branch 1 = tf.concat([ 
slim.conv2d(branch_1, 384, [1, 3], scope='Conv2d_@b_1x3'), 
slim.conv2d(branch_1, 384, [3, 1], scope='Conv2d_@b_3x1')], 3) 
with tf.variable scope('Branch_2'): : | 
branch 2 = slim.conv2d(net, 448, [1, 1], scope='Conv2d_9a_1x1") 
branch 2 = slim.conv2d(branch_2, 384, [3, 3], 
scope='Conv2d_@b_3x3') 
branch_2 = tf.concat([ 
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slim.conv2d(branch_2, 384, [1, 3], scope='Conv2d_ @c_1x3'), 
slim.conv2d(branch_2, 384, [3, 1], scope='Conv2d_@d_3x1')], 3) 
with tf.variable_ scope('Branch_3'): | 
branch_3 = slim.avg pool2d(net, [3, 3], scope='AvgPool 6a 3x3') 
branch 3 


ll 


Slim.conv2d(branch_3, 192, [1, 1], 
scope='Conv2d_ @b 1x1") 
net = tf.concat([branch_@, branch_1, branch_2, branch_3], 3) 


Mixed 7c 是 第 3 个 Inception 模块 组 的 最 后 一 个 Inception ot 不 过 它 和 前 面 的 
Mixed 7b 是 完全 一 致 的 ， i e re 后 ,我们 返回 这 个 Inception Module 
的 结果 ， 作 为 inceptio v3_base 函数 的 最 终 和 输出。 


with tf.variable _ scope( Mixed 7c’): 
with tf.variable_scope('Branch_@'): 
branch 8 = slim.conv2d(net, 320, [1, 1], scope='Conv2d_@a 1x1') 
with tf.variable_scope('Branch_1'): 
branch_1 = slim.conv2d(net, 384, [1, 1], scope='Conv2d_@a_1x1') 
branch_1 = tf.concat([ | 
Slim.conv2d(branch_1, 384, [1, 3], scope='Conv2d_ @b 1x3'), 
slim.conv2d(branch_1, 384, [3, 1], scope='Conv2d_@c_3x1')], 3) 
with tf.variable scope('Branch_2'): 
branch_2 = slim.conv2d(net, 448, [1, 1], scope='Conv2d @a 1x1') 
branch_2 


slim.conv2d(branch_2, 384, [3, 3], 
scope='Conv2d_@b_ 3x3') 


branch_2 = tf.concat([ 
slim.conv2d(branch 2, 384° (152315 scope= Conv2d_6c_1x3 )， 
slim.conv2d(branch 2, 384, [3, 1], scope='Conv2d_@d_3x1')], 3) 
with tf.variable scope('Branch 3'): 
branch_3 = slim.avg pool2d(net, [3, 3], scope='AvgPool 6a 3x3') 
branch_3 = slim.conv2d(branch_ 3, a Ke pa Wea Rese Be 6 
scope= Conv2d 6b 1x1") 
net = tf.concat([branch 8, branch 1，branch 2, branch_3], 3) 


return net, end points 


至 此 , Inception V3 网 络 的 核心 部 分 , 即 卷 积 层 部 分 就 完成 了 。 回忆 一 下 Inception V3 
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的 网 络 结构 : 首先 是 5 个 卷 积 层 和 2 个 池 化 层 交 蔡 的 普通 结构 ， 然 后 是 3 个 Inception 模 
块 组 , 每 个 模块 组 内 包含 多 个 结构 类 似 的 Inception Module. 设计 Inception Net 的 一 个 重 
要 原则 是 , 图 片 尺 寸 是 不 断 缩 小 的 , 从 299x299 通过 5 个 步 长 为 2 的 卷 积 层 或 池 化 层 后 ， 
缩小 为 8x8; 同时 ， 输 出 通道 数 持续 增加 ， 从 一 开始 的 3 (RGB 三 色 ) 到 2048。 从 这 里 
可 以 看 出 ， 每 一 层 卷 积 、 池 化 或 Inception 模块 组 的 目的 都 是 将 空间 结构 简化 ， 同 时 将 空 
间 信 息 转 化 为 高 阶 抽象 的 特征 信息 , 即将 空间 的 维度 转 为 通道 的 维度 。 这 一 过 程 同时 也 使 
每 层 输出 tensor 的 总 size 持续 下 降 ， 降 低 了 计算 量 。 读 者 可 能 也 发 现 了 Inception Module 
的 规律 ， 一 般 情况 下 有 4 个 分 文 ， 第 1 个 分 支 一 般 是 1x1 卷 积 ， 第 2 个 分 支 一 般 是 1x1 
卷 积 再 接 分 解 后 ( factorized ) 的 1xn 和 nxl 卷 积 ， 第 3 个 分 支 和 第 2 个 分 支 类 似 ， 但 是 
一 般 更 深 一 些 ， 第 4 个 分 支 一 般 具 有 最 大 池 化 或 平均 池 化 。 因 此 ，Inception Module 是 通 
过 组 合 比较 简单 的 特征 抽象 (分支 1 )、 比较 复杂 的 特征 抽象 (分 支 2 FISTS 3 ) 和 一 个 简 
化 结构 的 池 化 层 (分 支 4)， 一 共 4 种 不 同 程度 的 特征 抽象 和 变换 来 有 选择 地 保留 不 同 层 
次 的 高 阶 特征 ， 这 样 可 以 最 大 程度 地 丰富 网 络 的 表达 能 力 。 


接 下 来 ,我们 来 实现 Inception V3 网 络 的 最 后 一 部 分 全 局 平均 池 化 、Softmax 和 
Auxiliary Logits。 先 看 函数 inception v3 的 输入 参数 ,num classes 即 最 后 需要 分 类 的 数量 ， 
这 里 默认 的 1000 是 ILSVRC 比赛 数据 集 的 种 类 数 ; is_training 标志 是 否 是 训练 过 程 ， 对 
Batch Normalization 和 Dropout 有 有 影响， 只 有 在 训练 时 Batch Normalization 和 Dropout 才 
会 被 启用 ; dropout_keep_prob 即 训练 时 Dropout 所 需 保留 节点 的 比例 ， 默 认为 0.8; 
prediction fn 是 最 后 用 来 进行 分 类 的 函数 ， 这 里 默认 是 使 用 slim.softmax; spatial squeeze 
参数 标志 是 否 对 输出 进行 squeeze 操作 ( 即 去 除 维 数 为 1 的 维度 , 比如 5x3x1 转 为 5x3 ); 
reuse 标志 是 否 会 对 网 络 和 Variable 进行 重复 使 用 ; 最 后 ，scope 为 包含 了 函数 默认 参数 的 
环境 。 首 先 ， 使 用 给 .variable_scope 定义 网 络 的 name 和 reuse 等 参数 的 默认 值 ， 然 后 使 用 
slim.arg scope 定义 Batch Normalization 和 Dropout 的 is_training 标志 的 默认 值 。 最 后 , 使 
用 前 面 定义 好 的 inception_v3_base 构筑 整个 网 络 的 卷 积 部 分 , 拿 到 最 后 一 层 的 输出 net 和 
重要 节点 的 字典 表 end_points。 





def inception_v3(inputs, 
num_classes=1000, 
is training=True, 
dropout_keep_prob=@.8, 
prediction_fn=slim.softmax, 


spatial squeeze=True, 
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reuse=None, 


~ scope='InceptionV3'): 


with tf.variable scope(scope, ‘InceptionV3', [inputs, num_ classes], 
reuse=reuse) as scope: 
with slim.arg scope([slim.batch_norm, slim.dropout], 
is training=is training): 


net, end points = inception_v3_base(inputs, scope=scope) 


接 下 来 处 理 Auxiliary Logits 这 部 分 的 逻辑 ，Auxiliary Logits 作为 辅助 分 类 的 节点 ， 
对 分 类 结果 预测 有 很 大 帮助 。 先 使 用 slim.arg_scope 将 卷 积 、 最 大 池 化 、 平 均 池 化 的 默认 
步 长 设 为 1, BRI padding 模式 设 为 SAME。 然 后 通过 end points 取 到 Mixed 6e， 并 在 
Mixed_6e 之 后 再 接 一 个 5x5 的 平均 池 化 ， 步 长 为 3，padding 设 为 VALID, 这 样 输出 的 尺 
pie 17x17x768 变 为 5x5x768。 接 着 连接 一 个 128 输出 通道 的 1x1 卷 积 和 一 个 768 输出 

道 的 5x5 卷 积 , 这 里 权重 初始 化 方式 重 设 为 标准 差 为 0.01 ESS, padding 模式 设 
: VALID, 输出 尺寸 变 为 1x1x768。 然 后 再 连接 一 个 输出 通道 数 为 num_ classes 的 1x1 4 
只 ,不 设 激活 函数 和 规范 化 函数 ， 权 重 初始 化 方式 重 设 为 标准 差 为 0.001 HESS, X 
样 输出 变 为 了 1x1x1000。 接 下 来 , 使 用 给 squeeze 函 效 消除 输出 tensor 中 前 两 个 为 1 的 维 
度 。 最 后 将 辅助 分 类 节点 的 输出 aux_logits 储存 到 字典 表 end points 中 。 


with slim.arg scope([slim.conv2d, slim.max_pool2d, slim.avg pool2d], 
stride=1, padding='SAME’ ): 
aux_logits = end_points[ 'Mixed_6e'] 
with tf.variable scope('AuxLogits'): 
aux logits = slim.avg pool2d( 
. aux_logits, [5, 5], stride=3, padding=' VALID’ 
scope='AvgPool_1a_ 5x5’). 
aux_logits = slim.conv2d(aux_logits, 128, [1, 1], 
scope='Conv2d_1b_1x1') 


aux logits = slim.conv2d( 
aux_logits, 768, [5,5], 
weights initializer=trunc_normal(@.@1), 


padding='VALID’, scope='Conv2d_2a_5x5') 
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aux_logits = slim.conv2d( 
aux_logits, num_classes, [1, 1], activation_fn=None, 
normalizer_fn=None, weights _initializer=trunc_normal(@.@@1), 
scope='Conv2d_2b 1x1") 
if spatial squeeze: 
aux logits = tf.squeeze(aux_logits, [1, 2], 
name='SpatialSqueeze’ ) 


end _points[ ‘AuxLogits'] = aux_logits 


下 面 处 理 正常 的 分 类 预测 的 逻辑 。 我 们 直接 对 Mixed_7e 即 最 后 一 个 卷 积 层 的 输出 进 
行 一 个 8x8 全 局 平均 池 化 ，padding 模式 为 VALID ， 这 样 输 出 tensor 的 尺寸 就 变 为 了 
1x1x2048。 然 后 连接 一 个 Dropout 层 ， 节 点 保留 率 为 dropout keep_prob。 接 着 连接 一 个 
输出 通道 数 为 1000 的 1x1 卷 积 ， 激 活 函 数 和 规范 化 函数 设 为 空 。 下 面 使 用 ass ER 
除 输 出 tensor 中 维 数 为 1 的 维度 , 再 连接 一 个 Softmax 对 结果 进行 分 类 预测 。 最 后 返回 输 
出 结果 logits 和 包含 辅助 万 点 的 end_ponits。 


with tf.variable_scope('Logits'): 
net = slim.avg pool2d(net, [8, 8], padding='VALID', 
` scope='AvgPool 1a 8x8’) 
net = slim.dropout(net, keep _prob=dropout_keep_prob, 
7 scope="Dropout_1ib’ ) 
end_points['PreLogits']| = net 
logits = slim. conv2d(net, num_classes, [1, 1], activation_ fn=None, 
normalizer_fn=None, scope='Conv2d_ic_1x1") 
if spatial squeeze: 
logits = tf.squeeze(logits, [1, 2], name= Uae ) 
end_points['Logits'] = logits } 
end_points[ 'Predictions'] = prediction _fn(logits, scope='Predictions’ ) 


return logits, end points 


至 此 ， 整 个 Inception V3 网 络 的 构建 就 完成 了 。Inception V3 是 一 个 非常 复杂 、 精 妙 
的 模型 ,其 中 用 到 了 非常 多 之 前 积累 下 来 的 设计 大 型 卷 积 网 络 的 经 验 和 技巧 。 不 过 , BA 
Inception V3 论文 中 给 出 了 设计 卷 积 网 络 的 几 个 原则 , 但 是 其 中 很 多 超 参 数 的 选择 ,包括 
层 数 、 卷 积 核 的 尺寸 、 池 化 的 位 置 、 步 长 的 大 小 、factorization 使 用 的 时 机 ， 以 及 分 支 的 
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设计 ， 都 很 难 一 一 解释 。 目 前 ,我们 只 能 认为 深度 学 习 ， 艺 其 是 大 型 卷 积 网 络 的 设计, 是 
一 门 实验 学 科 , 其 中 需要 大 量 的 探索 和 实践 。 我 们 很 难 证 明 条 种 网 络 结构 一 定 更 好 ,更 多 
的 是 通过 实验 积累 下 来 的 经 验 总 结 出 一 些 结论 。 深度 学 习 的 研究 中 , 理论 证 明 部 分 依然 是 
. 短 板 ， 但 通过 实验 得 到 的 结论 通常 也 具有 不 错 的 推广 性 ， 在 其 他 数据 集 上 泛 化 性 民 好 。 


下 面 对 Inception V3 进行 运算 性 能 测试 。 这 里 使 用 的 time_tensorflow_run 函数 和 
AlexNet 那 节 一 样 ， 因 此 就 不 再 重复 定义 ， 读 者 可 以 在 6.1 节 中 找到 代码 并 加 载 。 因 为 
Inception V3 网 络 结构 较 大 ， 所 以 依然 令 batch_size 为 32， 以 免 GPU 显存 不 够 。 图 片 尺 
寸 设置 为 299x299， 并 用 tfrandom uniform 生成 随机 图 卢 数 据 作 为 input。 接 着 ， 我 们 使 
用 slim.arg _ scope 加 载 前 面 定 义 好 的 inception v3_arg_scope() ,在 这 个 scope 中 包含 了 Batch 
Normalization 的 默认 参数 ， 以 及 激活 函数 和 参数 初始 化 方式 的 默认 信 。 然 后 在 这 个 
、arg_scope F, WH inception_v3 函数 ， 并 传 入 inputs， 获 取 logits 和 end_points。 下 面 创 
建 Session 并 初始 化 全 部 模型 参数 。 最 后 我 们 设置 测试 的 batch 数量 为 100， 并 使 用 
time tensorflow_ run 测试 Inception V3 网 络 的 forward ERE. 


batch_size = 32 

height, width = 299, 299 

inputs = tf.random_uniform((batch_size, height, width, 3)) 
with slim.arg scope(inception_v3_arg_ scope()): 


logits, end_points = inception_v3(inputs, is_training=False) 


tf.global variables initializer() 


init 


sess = tf.Session() 
sess.run(init) 
num_batches=100 


time_tensorflow_run(sess, logits, "Forward" ) 


从 结果 来 看 , Inception V3 网 络 的 forward 性 能 不 错 ,在 GTX 1080, CUDA 8 .cuDNN 
5.1 的 环境 下 ， 每 个 batch ( 包含 32 张 图 片 ) 预测 耗 时 仅 为 0.145s。 虽 然 输 入 图 片 的 面积 
比 VGGNet 的 224x224 大 了 78%， 但 是 forward 速度 却 比 VGGNet 的 0.152s 更 快 。 这 主 
要 归功 于 其 较 小 的 参数 量 ，Inception V3 网 络 仅 有 2500 万 个 参数 ， 虽 然 比 Inception V1 
的 700 万 多 了 很 多 , 不 过 仍然 不 到 AlexNet 的 6000 万 参数 量 的 一 半 , 相 比 VGGNet 的 1.4 
亿 参 数量 就 更 少 了 ， 这 对 一 个 42 层 深 的 大 型 网 络 来 说 是 极为 不 易 的 。 同 时 ， 整 个 网 络 的 
浮 点 计算 量 仅 为 50 亿 次 ， 虽 也 比 Incepion V1 的 15 亿 次 大 了 不 少 ， 但 是 相 比 VGGNet 
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仍然 不 算 大 。 较 小 的 计算 量 让 Inception V3 网 络 变 得 非常 实用 , 我 们 可 以 轻松 地 将 其 移植 
到 普通 服务 器 上 提供 快速 啊 应 的 服务 ， 甚 至 是 移植 到 手机 上 进行 实时 的 图 像 识 别 。 
2016-12-10 21:07:09.535980: step @, duration = 6.145 

2016-12-10 21:07:10.982748: step 10, duration = 0.145 


2016-12-19 21:07:12.430209: step 20, duration = 0.145 
2016-12-18 21:07:13.877055: step 30, duration = 0.145 
2016-12-10 21:07:15.324095: step 40, duration = 0.145 
2016-12-10 21:07:16.770960: step 50, duration = 0.145 
2016-12-10 21:07:18.218127: step 60, duration = 9.145 
2016-12-16 21:07:19.665192: step 70, duration = 0.145 
2016-12-10 21:07:21.113429: step 80, duration = 0.145 


2016-12-10 21:07:22.563213: step 90, duration = 0.145 
2016-12-10 21:07:23.867730: Forward across 100 steps, 0.145 +/- 0.000 sec / 
batch 


因为 篇 幅 原 因 ， 我 们 就 不 对 Inception V3 AY backward 性 能 进行 测试 了 了， 这 部 分 的 代码 
比较 见长 。 感 兴趣 的 读者 ， 可 以 将 整个 网 络 的 所 有 参数 加 入 参数 列表 ， 测 试 对 全 部 参数 求 导 
所 需 的 时 间 ， 或 者 直接 下 载 ImageNet 数据 集 ， 使 用 真实 样本 进行 训练 并 评测 所 需 时 间 。 

Inception V3 作为 一 个 极 深 的 卷 积 神经 网 络 , 拥有 非常 精妙 的 设计 和 构造 ， 整 个 网 络 
的 结构 和 分 支 非常 复杂 。 我 们 平时 可 能 不 必 设 计 这 么 复杂 的 网 络 , 但 Inception V3 中 仍 有 
许多 设计 CNN 的 思想 和 Trick 值得 信 鉴 。 

(1) Factorization into small convolutions 很 有 效 ， 可 以 降低 参数 量 、 减 轻 过 拟 合 ， 增 
加 网 络 非 线 性 的 表达 能 

(2 ) 卷 积 网 络 从 输入 到 输出 ， 应 该 让 图 片 尺寸 逐渐 减 小 , 输出 通道 数 逐 渐 增 加 ， 即 让 
空间 结构 简化 ， 将 空间 信息 转化 为 高 阶 抽象 的 特征 信息 。 

(3) Inception Module 用 多 个 分 支 提取 不 同 抽象 程度 的 高 阶 特征 的 思路 很 有 效 ， 可 以 
丰富 网 络 的 表达 能 
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6.4 TensorFlow 实现 ResNet 


ResNet ( Residual Neural Network ) 由 人 微软 研究 院 的 Kaiming He 等 4 名 华人 提出 ， 
通过 使 用 Residual Unit 成 功 训 练 152 BRIE , 在 ILSVRC 2015 比赛 中 获得 了 冠 
军 ， 取 得 3.57% 的 top-5 错误 率 ， 同 时 参数 量 却 比 VGGNet 低 ， 效 果 非 常 突出 。ResNet 的 
结构 可 以 极 快 地 加 速 超 深 神经 网 络 的 训练 ， 模 型 的 准确 率 也 有 非常 大 的 提升 。6.3 EAN 
讲解 并 实现 了 Inception. V3, ffi Inception V4 则 是 将 Inception Module 和 ResNet 相 结 合 。 
可 以 看 到 ResNet 是 一 个 推广 性 非常 好 的 网 络 结构 ,甚至 可 以 直接 应 用 到 Inception Net H, 
本 节 就 讲解 ResNet 的 基本 原理 ， 以 及 如 何 用 TensorFlow 来 实现 它 。 


在 ResNet Z HJ, Imt% Schmidhuber 提出 了 Highway Network， 原 理 与 ResNet 很 
相似 。 这 位 Schmidhuber 教授 同时 也 是 LSTM 网 络 的 发 明 者 ,而 且 是 早 在 1997 年 发 明 的 ， 
可 谓 是 神经 网 络 领域 元 老 级 的 学 者 。 通 弟 认 为 促 经 网 络 的 深度 对 其 性 能 非常 重要 , 但 是 网 
络 越 深 其 训练 难度 越 大 , Highway Network 的 目标 就 是 解决 极 深 的 神经 网 络 难 以 训练 的 间 
jl, Highway Network 相当 于 修改 了 每 一 层 的 激活 函数 , 此 前 的 激活 函数 只 是 对 输入 做 一 
个 非 线性 变换 y = H(x,Wy), Highway NetWork 则 人 允许 保留 一 定 比 例 的 原始 输入 x, BN 
y = H(x,Wy) TO, Wr) +x CC We), BT 为 变换 系数 ，C 为 保留 系数 ， 论 文中 令 
C = 1 一 T。 这 样 前 面 一 层 的 信息 ， 有 一 定 比 例 可 以 不 经 过 矩阵 乘法 和 非 线 性 变换 ， 直 接 
传输 到 下 一 层 ， 仿佛 一 条 信息 高 速 公 路 ， 因 此 得 名 Highway Network, Highway Network 
主要 通过 gating units 学 习 如 何 控制 网 络 中 的 信息 流 ， 即 学 习 原 始 信息 应 保留 的 比例 。 这 
个 可 学 习 的 gating 机 制 ， 正 是 借鉴 自 Schmidhuber 教授 早年 的 LSTM 循环 神经 网 络 中 的 
gating。 几 百 力 至 上 干 层 深 的 Highway Network 可 以 直接 使 用 梯度 下 降 算 法 训练 ， 并 可 以 
配合 多 种 非 线 性 激活 函数 ， 学 习 极 深 的 神经 网 络 现在 变 得 可 行 了 。 事 实 上 ，Highway 
Network 的 设计 在 理论 上 人 允许 其 训练 任意 次 的 网 络 , 其 优化 方法 基本 上 与 网 络 的 深度 独立 ， 
而 传统 的 神经 网 络 结构 则 对 深度 非常 敏感 ， 训 练 复杂 度 随 深度 增加 而 急剧 增加 。 


ResNet 和 HighWay Network 非常 类 似 ， 也 是 允许 原始 输入 信息 直接 传输 到 后 面 的 层 
中 。ResNet 最 初 的 灵感 出 目 这 个 问题 : 在 不断 加 神经 网 络 的 深度 时 ， 会 出 现 一 个 
Degradation 的 问题 ， 即 准确 率 会 先 上 升 然后 达到 饱和 ， 骨 持续 增加 深度 则 会 导致 准确 率 
下 降 。 这 并 不 是 过 拟 合 的 问题 ,因为 不 光 在 测试 集 上 误差 增 大 ,训练 集 本 喘 误差 也 会 增 大 。 
假设 有 一 个 比较 浅 的 网 络 达 到 了 饱和 的 准确 率 , 那么 后 面 再 加 上 几 个 y = x 的 全 等 映射 层 ， 
起 码 误差 不 会 增加 , 即 更 深 的 网 络 不 应 该 市 来 训练 集 上 误差 上 升 。 而 这 里 提 到 的 使 用 全 等 
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映射 直接 将 前 一 层 输 出 传 到 后 面 的 思想 ， 就 是 ResNet 的 灵感 来 源 。 假 定 某 段 神经 网 络 的 
输入 是 x， 期 望 输出 是 H(x)， 如 果 我 们 直接 把 输入 x 传 到 输出 作为 初始 结果 ， 那 么 此 时 我 
们 需要 学 习 的 目标 就 是 F(x) = H(x)-x。 如 图 6-14 所 示 ， 这 就 是 一 个 ResNet 的 残 差 学 习 
单元 ( Residual Unit ), ResNet 相当 于 将 学 习 目 标 改 变 了 ,不 天 是 学 习 一 个 完整 的 输出 H(x)， 
只 是 输出 和 输入 的 差别 H(x)-x， 即 残 差 。 






x 
F(x) _ 
identity 
F(x) +x 


图 6-14 ResNet 的 残 差 学 习 模 块 


6-15 所 示 为 VGGNet-19， 以 及 一 个 34 层 深 的 普通 卷 积 网 络 ， 和 34 GRAN ResNet 
网 络 的 对 比 图 。 可 以 看 到 普通 直 连 的 卷 积 神经 网 络 和 ResNet 的 最 大 区 别 在 于 ，ResNet 有 
很 多 劳 路 的 支线 将 输入 直接 连 到 后 面 的 层 , 使 得 后 面 的 层 可 以 直接 学 习 残 差 , 这 种 结构 也 
被 称 为 shortcut 或 skip connections. 


传统 的 卷 积 层 或 全 连接 层 在 信息 传递 时 ， 或 多 或 少 会 存在 信息 丢失 、 损 耗 等 问题 。 
ResNet 在 某 种 程度 上 解决 了 这 个 问题 ， 通 过 直接 将 输入 信息 绕道 传 到 输出 ， 保 护 信 息 的 
完整 性 ， 整 个 网 络 则 只 需要 学 习 输 入 、 输 出 差别 的 那 一 部 分 ， 简 化 学 习 目标 和 难度 。 


在 ResNet 的 论文 中 , 除了 提出 图 6-16 中 的 两 层 残 差 学 习 单元 , 还 有 三 层 的 残 差 学 习 
单元 。 两 层 的 残 差 学 习 单 元 中 包含 两 个 相同 输出 通道 数 ( 因为 残 差 等 于 目标 输出 减 去 输入 ， 
即 H(x)-x， 因 此 输入 、 输 出 维度 需 保 持 一 致 ) 的 3x3 卷 积 ; 而 3 层 的 残 差 网 络 则 使 用 了 
Network In Network 和 Inception Net 中 的 1x1 卷 积 ， 并 且 是 在 中 间 3x3 的 卷 积 前 后 都 使 
用 了 1x1 卷 积 ， 有 先 降 维 再 升 维 的 操作 。 另 外 ， 如 果 有 输入 、 输 出 维度 不 同 的 情况 ， 我 
们 可 以 对 zx 做 一 个 线性 映射 变换 维度 ， 再 连接 到 后 面 的 层 。 


6-17 所 示 为 ResNet 在 不 同 层 数 时 的 网 络 配 置 ， 其 中 基础 结构 很 类 似 , 都 是 前 面 提 
SW ARM BRS > BATCHES. 
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VGG-19 34-layer plain 34-layer residual 
image image image 
ane 
size: 224 ZOD 
pool, /2 
output 
size: 112 3x3 conv, 128 
3x3 conv, 128 7x7 conv, 64, /2 7x7 conv, 64, /2 
pool, /2 pool, /2 pool, /2 
output 
size: 56 3x3 conv, 256 3x3 conv, 64 SN i 3x3 | conv, 64 
Sid conw, [Sid conv, 6] 
3x3 conv, 256 E] 3x3 conv, 64 ey 3x3 conv, 64 
3x3 conv, 256 | 3x3 conv, 64 
3x3 conv, 64 3x3 conv, 64 
3x3 conv, 64 i 3x3 conv, 64 
pool, /2 3x3 conv, 128, /2 3x3 conv, 128, /2 | ~ ‘ 
output Yy 
size: 28 } 
3x3 conv, 512 3x3 conv, 128 3x3 conv, 128 _ 
3x3 conv, 512 3x3 conv, 128 3x3 conv, 128 
3x3 conv, 512 3x3 conv, 128 3x3 conv, 128 
3x3 conv, 512 3x3 conv, 128 3x3 conv, 128 
3x3 conv, 128 3x3 conv, 128 
3x3 conv, 128 3x3 conv, 128 
3x3 conv, 128 3x3 conv, 128 
6-15 VGG-19， 直 连 的 34 层 网 络 ，ResNet 的 34 层 网 络 的 结构 对 比 
64-d 256-d 
3x3, 64 
1x1, 256 
relu relu 


6-16 两 层 及 三 层 的 ResNet 残 差 学 习 模 块 
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layer name | output size | 18-layer 34-layer 101-layer 152-layer 
conv] 112x112 7x7, 64, stride 2 


3x3 max pool, stride 2 


f 1x1, 64 1x1, 64 1x1, 64 

CO 56x56 poda Poia 3x3, 64 Ls 3x3,64 | x3 3x3,64 | x3 
1x1, 256 | 1x1, 256 1x1, 256 
1x1, 128 1x1, 128 1x1, 128 

conv3.x | 28x28 rn ee 3x3, 128 | x4 | | 3x3,128 | x4 3x3, 128 | x8 
Kah ii 1x1, 512 1x1, 512 1x1, 512 
1x1, 256 1x1, 256 1x1, 256 

coms | Wasa Peri pee 3x3,256 |x6 || 3x3,256 | x23 | | 3x3,256 | x36 
' 1x1, 1024 1x1, 1024 1x1, 1024 

1x1, 512 1x1, 512 1x1, 512 ). 

convSx | 7x7 Parda a a 3x3,512 | x3 | | 3x3,512 | x3 | | 3x3,512 | x3 
1x1, 2048 11, 2048 1x1, 2048 


average pool, 1000-d fc, softmax 


FLOR SST TET Tay 
6-17 ResNet 不 同 层 数 时 的 网 络 配置 


在 使 用 了 ResNet 的 结构 后 ， 可 以 发 现 层 数 不 断 加 深 导致 的 训练 集 上 误差 增 大 的 现象 
被 消除 了 ，ResNet 网 络 的 训练 误差 会 随 着 层 数 增 大 而 逐渐 减 小 ， 并 且 在 测试 集 上 的 表现 
会 变 好 。 在 ResNet 推出 后 不 信 ，Google 就 借鉴 了 ResNet WH, 提出 了 Inception V4 
和 Inception-ResNet-V2 ,并 通过 融合 这 两 个 模型 ,在 ILSVRC 数据 集 上 取得 了 惊人 的 3.08% 
的 错误 率 。 可 见 ，ResNet 及 其 思想 对 卷 积 神经 网 络 研究 的 贡献 确实 非常 显著 ， 具有 很 强 
的 推广 性 。 在 ResNet 的 作者 的 第 二 篇 相关 论文 Identity Mappings in Deep Residual 
Networks 中 ，ResNet V2 被 提出 。ResNet V2 和 ResNet V1 的 主要 区 别 在 于 ， 作 者 通过 
研究 ResNet 残 差 学 习 单元 的 传播 公式 ， 发 现 前 馈 和 反馈 信和 号 可 以 直接 传输 ， 因 此 skip 
connection 的 非 线性 激活 函数 ( 如 ReLU ) 4487 Identity Mappings( y = x ). 同时, ResNet 
V2 在 每 一 层 中 都 使 用 了 Batch Normalization。 这 样 处 理 之 后 ， 新 的 残 差 学 习 单 元 将 比 以 
前 更 容易 训练 且 泛 化 性 更 强 。 


根据 Schmidhuber 教授 的 观点 ，ResNet 类 似 于 一 个 没有 gates 的 LSTM 网 络 ， 即 将 输 
入 x 传递 到 后 面 层 的 过 程 是 一 直 发 生 的 ， 而 不 是 学 习 出 来 的 。 同 时 ， 最 近 也 有 两 篇 论文 
表示 ，ResNet 基本 等 价 于 RNN H ResNet 的 效果 类 似 于 在 多 层 网 络 间 的 集成 方法 
(ensemble )。ResNet 在 加 深 网 络 层 数 上 做 出 了 重大 贡献 ， 而 另 一 篇 论文 The Power of 
Depth for Feedforward Neural Networks 则 从 理论 上 证 明了 加 深 网 络 比 加 宽 网 络 更 有 效 ， 
算是 给 ResNet 提供 了 声援 ， 也 是 给 深度 学 习 为 什么 要 深 才 有 效 提 供 了 合理 解释 。 


下 面 我 们 就 用 TensorFlow 实现 一 个 ResNet V2 网 络 。 我 们 依然 使 用 方便 的 E 
库 来 辅助 创建 ResNet, 其 余 载 入 的 库 还 有 原生 的 collections。 本 节 代 码 主 要 来 目 TensorFlow 
的 开源 实现 ”。 
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import collections 
import tensorflow as tf 


slim = tf.contrib.slim 


我 们 使 用 collections.namedtuple 设 计 ResNet 基 本 Block 模 块 组 (图 6-17 中 所 示 的 Block ) 
的 named tuple， 并 用 它 创 建 Block 的 类 ， 但 只 包含 数据 结构 ， 不 包含 具体 方法 。 我 们 要 
定义 一 个 典型 的 Block, 需 要 输入 三 个 参数 ,分 别 是 scope unit 印 和 args。 以 Block(blockl,， 
bottleneck, [(256, 64, 1)] x 2 + [(256, 64, 2)]) 这 一 行 代码 为 例 ， 它 可 以 定义 一 个 典型 的 
Block， 其 中 block! 就 是 我 们 这 个 Block 的 名 称 (或 scope ); bottleneck 是 ResNet V2 中 
的 残 差 学 习 单 元 ; 而 最 后 一 个 参数 [(256,64, 1)] x 2 + [(256, 64, 2)] 则 是 这 个 Block 的 
args, args 是 一 个 列表 ， 其 中 每 个 元 素 都 对 应 一 个 bottleneck 残 差 学 习 单元 ， 前 面 两 个 元 
素 都 是 (256, 64，1)， 最 后 一 个 是 (256, 64，2)。 每 个 元 系 都 是 一 个 三 元 tuple, BU (depth, 
depth bottleneck，stride )。 比 如 (256，64，3 )， 代 表 构 建 的 bottleneck 残 差 学 习 单元 (每 
个 残 差 学 习 单元 包含 三 个 卷 积 层 ) 中 ， 第 三 层 输 出 通道 数 depth 为 2356， 前 两 层 输出 通道 
数 depth_bottleneck 为 64， 且 中 间 那 层 的 步 长 stride 为 3。 这 个 残 差 学 习 单 元 结构 即 为 
[(1x1/s1，64),，(3x3/s2，64),(1x1/s1，256)]。 而 在 这 个 Block H, 一 共有 3 个 bottleneck žk 
差 学 习 单元 ， 除 了 最 后 一 个 的 步 长 由 3 变 为 2， 其 余 都 一 致 。 


class Block(collections.namedtuple('Block', [‘scope', ‘unit_fn', "args ])): 


‘A named tuple describing a ResNet block. ' 


下 面 定义 一 个 降 采 样 subsample 的 方法 , 参数 包括 inputs ( 输入 ), factor ( 采样 因子 ) 
和 scope。 这 个 函数 也 非常 简单 ， 如 果 factor l; E 做 修改 直接 返回 inputs; 如 果 不 为 
1， 则 使 用 slim.max pool2d 最 大 池 化 来 实现 ， 通 过 1x1 的 池 化 尺寸 ，stride 作 步 长 ， 即 可 
实现 降 采 样 。 


def subsample(inputs, factor, scope=None): 
if factor == 
return inputs 
else: 


return slim.max_pool2d(inputs, [1, 1], stride=factor, scope=scope) 


再 定义 一 个 conv2d_same 函数 创建 卷 积 层 。 先 判断 stride 是 否 为 1， 如 果 为 1， 则 直 
接 使 用 slim.conv2d 并 令 padding 模式 为 SAME。 如 果 stride 不 为 1， 则 显 式 地 pad zero, 
要 pad zero 的 总 数 为 kemel size-1，pad_beg 为 pad/2，pad end 为 余下 的 部 分 。 接 下 来 使 
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H tf.pad 对 输入 变量 进行 补 零 操 作 。 最 后 ， 因 为 已 经 进行 了 zero padding, 所 以 只 需 有 再 使 
用 一 个 padding 模式 为 VALID 的 slim.conv2d 创建 这 个 卷 积 层 


def conv2d same(inputs, num outputs, kernel size, stride, scope=None): 
if stride == 1: 
return slim.conv2d(inputs, num_outputs, kernel_size, stride=1, 
padding='SAME', scope=scope) 
else: 
pad total = kernel_size - 1 


pad_ total // 2 


pad_beg 
pad end = pad _ total - pad_beg 
inputs = tf.pad(inputs, [[@, 9], [pad beg, pad_end], 
[pad_beg, pad_end], [6, 6]]) 
return slim.conv2d(inputs, num_outputs, kernel_size, stride=stride, 


padding='VALID', scope=scope) 


Re PORE MHES Blocks 的 函数 ， 参 数 中 的 net 即 为 输入 ，blocks 是 之 前 定义 的 Block 
的 class 的 列表 ， 而 outputs collections 则 是 用 来 收集 各 个 end points 的 collections, 下面 
使 用 两 层 循 环 ， 逐 个 Block, A Residual Unit tE, FC FARIS tfvariable scope 将 
残 差 学 习 单元 命名 为 block1/unit_1 的 形式 。 在 第 2 层 循环 中 , 我 们 拿 到 每 个 Block 中 每 个 
Residual Unit 的 args ,并 展开 为 depth depth bottleneck 和 stride ,其 含义 在 前 面 定 义 Blocks 
类 时 已 经 讲解 过 。 然 后 使 用 unit_fn 函数 ( 即 残 差 学 习 单 元 的 生成 函数 ) 顺序 地 创建 并 连 
接 所 有 的 残 差 学 习 单 元 。 最 后 ， 我 们 使 用 slim-utils.collect_named_outputs 函数 将 输出 net 
添加 到 collection 中 。 最 后 ， 当 所 有 Block 中 的 所 有 Residual Unit 都 堆 登 完 之 后 ， 我 们 册 
返回 最 后 的 net 作为 stack blocks dense k Dúi 结果 。 


@slim.add_arg scope 


def stack_blocks _dense(net, blocks, outputs_collections=None): 


for block in blocks: 
with tf.variable scope(block.scope, ‘block’, [net]) as sc: 
for i, unit in enumerate(block.args): 3 
with tf.variable scope('unit_%d' % (i + 1), values=[net]): 
unit depth, unit depth bottleneck, unit_stride = unit 
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net = block.unit_fn(net, 
depth=unit_depth, 
depth_bottleneck=unit_depth_bottleneck, 
stride=unit_stride) 
net = slim.utils.collect_named_outputs(outputs_collections, sc.name, 


net) 


return net 


TEUR ResNet Sew arg scope, XF arg_scope， 我 们 在 前 面 的 章节 已 经 介绍 过 
其 功能 tL 些 水 数 的 参数 默认 值 。 这 里 定义 训练 标记 is_training 默认 为 True， 
权重 衰减 速率 weight decay BRIA 0.0001, BN 的 衰减 速率 默认 为 0.997，BN 的 epsilon 
默认 为 1e-5，BN 的 scale 默认 为 Tue。 和 在 Inception V3 定义 arg scope 一样 ， 先 设置 好 
BN 的 各 项 参数 ， 然 后 通过 slim.arg_scope 将 slim.conv2d 的 几 个 默认 参数 设置 好 : 权重 正 
WEA L2 正则 ， 权 重 初 始 化 器 设 为 slim.variance_scaling initializer()， 激 活水 数 设 为 
ReLU, 标准 化 器 设 为 BN。 并 将 最 大 池 化 的 padding 模式 默认 设 为 SAME ( 注意 ，ResNet 
原 论文 中 使 用 的 是 VALID 模式 ， 设 为 SAME ena 读者 可 以 尝试 改 为 
VALID )。 最 后 ， 将 几 层 瞬 套 的 arg_scope 作为 结 








def resnet_arg scope(is_training=True, 
weight_decay=0.9001, 
batch_norm_decay=@.997, 
batch_norm_epsilon=1e-5, 


batch_norm_scale=True): 


batch_norm_params = { 
‘is training’: is training, 
‘decay’: batch_norm_decay, 
‘epsilon’: batch_norm_epsilon, 
‘scale’: batch_norm_scale, 


‘updates _collections': tf.GraphKeys.UPDATE_OPS, 


with slim.arg scopel 
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[slim.conv2d], 
weights regularizer=slim.12 regularizer(weight_decay), 
weights initializer=slim.variance scaling initializer(), 
activation_fn=tf.nn.relu, 
normalizer_fn=slim.batch_norm, 
normalizer_params=batch_norm_params): 
with slim.arg scope([slim.batch_norm], **batch_norm_params): 
with slim.arg scope([slim.max_pool2d], padding='SAME') as arg sc: 


return arg sc 


接 下 来 定义 核心 的 bottleneck 和 残 差 学 习 单 元 ， 它 是 ResNet V2 的 论文 中 提 到 的 Full 
Preactivation Residual Unit 的 一 个 变种 。 它 和 ResNet V1 中 的 残 差 学 习 单元 的 主要 区 别 有 
两 点 ， 一 是 在 每 一 层 前 都 用 了 Batch Normalization， 二 是 对 输入 进行 preactivation， 币 不 
是 在 卷 积 进行 激活 函数 处 理 。 我 们 来 看 一 下 bottleneck 函数 的 参数 , inputs 是 输入 , depth, 
depth bottleneck 和 stride 这 三 个 参数 前 面 的 Blocks 类 中 的 args, outputs_collections 是 收 
集 end points 的 collection, scope 是 这 个 unit 的 名 称 。 下 面 先 使 用 slim.utils.last_dimension 
函数 获取 输入 的 最 后 一 个 维度 ， 即 输出 通道 数 ， 其 中 的 参数 min_rank=4 可 以 限定 最 少 为 
4 个 维度 。 接 着 , 使 用 slim.batch_norm 对 输入 进行 Batch Normalization， 并 使 用 ReLU ek 
数 进行 预 激活 Preactivate。 然 后 定义 shorcut ( 即 直 连 的 x): 如 果 残 差 单元 的 输入 通道 效 
depth in 和 输出 通道 数 depth 一 致 , 那么 使 用 subsample 按 步 长 为 stride 对 inputs 进行 空间 
上 的 降 采 样 ( 确保 空间 尺寸 和 残 差 一 致 ， 因 为 残 差 中 间 那 层 的 卷 积 步 长 为 stride ); 如 果 输 
入 、 输 出 通道 数 不 一 样 ,我 们 用 步 长 为 stride 的 1x1 卷 积 改 变 其 通道 数 ， 使 得 与 输出 通道 
数 一 致 。 然 后 定义 residual ( 残 差 )，residual 这 里 有 3 层 ， 先 是 一 个 1xl 尺寸 、 步 长 为 1、 
输出 通道 数 为 depth_bottleneck 的 卷 积 , 然后 是 一 个 3x3 尺寸 、 步 长 为 stride、 输 出 通道 数 
为 depth bottleneck 的 卷 积 ,最 后 是 一 个 1x1 卷 积 、 步 长 为 1 、 输 出 通道 数 为 depth 的 卷 积 ， 
得 到 最 终 的 residual， 这 里 注意 最 后 一 层 没有 正则 项 也 没有 激活 函数 。 然 后 将 residual 和 
shorcut 相 加 ,得 到 最 后 结果 output， 再 使 用 slim.utils.collect_named_outputs 将 结果 添加 进 
collection 并 返回 output 作为 函数 结果 。 


@slim.add_arg scope 
def bottleneck(inputs, depth, depth_bottleneck, stride, 


outputs collections=None, scope=None): 
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with tf.variable_scope(scope, 'bottleneck_v2', [inputs]) as sc: 
depth_in = slim.utils.last dimension(inputs.get shape(), min_rank=4) 
preact = slim.batch_norm(inputs, activation_fn=tf.nn.relu, 
scope='preact') 
if depth == depth_in: 
shortcut = subsample(inputs, stride, ‘shortcut') 
else: 
shortcut = slim.conv2d(preact, depth, [1, 1], stride=stride, 
normalizer_fn=None, activation fn=None, 


scope='shortcut' ) 


residual = slim.conv2d(preact, depth_bottleneck, [1, 1], stride=1, 
scope='convi' ) 

residual = conv2d same(residual, depth_bottleneck, 3, stride, 
sScope='conv2" ) 

residual = slim.conv2d(residual, depth, [1, 1], stride=1, 
normalizer_fn=None, activation_fn=None, 


scope='‘conv3" ) 
output = shortcut + residual 


return slim.utils.collect_named_outputs(outputs collections, 


sc.name, output) 


下 面 定 义 生成 ResNet V2 的 主义 数 ， 我们 只 要 预先 定义 好 网 络 的 残 差 学 习 模块 组 
blocks, 它 就 可 以 生成 对 应 的 完整 的 ResNet。 先 来 看 一 下 这 个 函数 的 参数 , inputs 即 输入 ， 
blocks 为 定义 好 的 Block 类 的 列表 ，num_classes 是 最 后 输出 的 类 数 ，global pool 标志 是 
否 加 上 最 后 的 一 层 全 局 平均 池 化 ，include root block 标志 是 否 加 上 ResNet 网 络 最 前 面 通 
党 使 用 的 7x7 卷 积 和 最 大 池 化 ，reuse 标志 是 否 重 用 ，scope 是 整个 网 络 的 名 称 。 在 函数 体 
内 ， 我 们 先 定义 好 variable scope 及 end points_collection ， 再 通过 slim.arg scope 将 
(slim.con2d, bottleneck, stack_block_dense ) 这 三 个 函数 的 参数 outputs_collections 默认 设 
为 end points_collection。 然 后 根据 include root block 标记， 创建 ResNet 最 前 面 的 64 输 


出 通道 的 步 长 为 2 的 7x7 卷 积 ， 然 后 再 接 一 个 步 长 为 2 的 3x3 最 大 池 化 。 经 历 两 个 步 长 
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为 2 的 层 , 图 片 尺 寸 已 经 被 缩小 为 1/4。 然后, 使 用 前 面 定 义 的 stack_blocks dense 将 残 差 
学 习 模块 组 生成 好 ,再 根据 标记 添加 全 局 平均 池 化 层 , 这 里 用 维 reduce_mean 实现 全 局 平 
均 池 化 ， 效 率 比 直接 用 avg pool 高 。 下 面 根据 是 否 有 分 类 数 ， 添 加 一 个 输出 通道 为 
num_classes 的 1x1 卷 积 ( 该 卷 积 层 无 激活 函数 和 正则 项 ), 再 添加 一 个 Softmax 层 输出 网 
络 结果 。 同 时 使 用 slim.utils.convert collection to dict 将 collection 转化 为 Python HY dict, 
最 后 返回 net 和 end_points。 


def resnet_v2(inputs, 
blocks, 
num_classes=None, 
global _pool=True, 
include _root_block=True, 
reuse=None, 


scope=None): 


with tf.variable scope(scope, ‘'resnet_v2’, [inputs], reuse=reuse) as sc: 


end_points_collection = sc.original_name_scope + ‘_end_points’ 
with slim.arg_scope([slim.conv2d, bottleneck, 
stack blocks dense], 
outputs collections=end points collection): 
net = inputs 
if include root block: 
with slim.arg scope([slim.conv2d], activation_fn=None, © 
| normalizer fn=None): 
net = conv2d same(net, 64, 7, stride=2, scope='conv1' ) 
net = lammaz pool2d(net. 3, zi pe stride=2, scope='pool1') 
net = stack blocks dense(net, blocks) 


net 


slim.batch_norm(net, activation_fn=tf.nn.relu, scope='postnorm') 
if global_pool: 

net = tf.reduce mean(net, [1, 2], name="'pool5', keep_dims=True) 
if num_classes is not None: 

net = slim.conv2d(net, num_classes, [1, 1], activation_fn=None, 


normalizer_fn=None, scope='logits’ ) 
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end_points = slim.utils.convert_collection_to_dict( 
end_points_collection) 
if num_classes is not None: 
end_points['predictions'] = slim.softmax(net, scope='predictions') 


return net, end_points 


至 此 , 我 们 就 将 ResNet pane oyna rena 6-17 中 推荐 的 几 个 不 同 深 
度 的 ResNet 网 络 配 置 ， 来 设计 层 数 分 别 为 50、101、152 和 200 的 ResNet。 我 们 先 来 看 
50 层 的 ResNet， 其 严格 遵守 了 图 6-17 a 4 个 残 差 学 习 Blocks 的 units 数量 分 
别 为 3、4、6 和 3， 总 层 数 即 为 ( 3+4+6+3 ) x3+2=50。 需 要 注意 的 是 ， 残 差 学 习 模块 之 
前 的 卷 积 、 池 化 已 经 将 尺寸 缩小 了 4 倍 ， 我 们 前 3 个 Blocks 又 都 包含 步 长 为 2 的 层 ， 因 
IARTA 4x8=32 倍 ， 输 入 图 片 尺 寸 最 后 变 为 224/32=7。 和 Inception V3 很 像 ， 
ResNet 不 断 使 用 步 长 为 2 的 层 来 缩减 尺寸 ,但 同时 输出 通道 数 也 在 持续 增加 ， 最 后 达到 
了 2048。 


def resnet_v2_5@(inputs, 
num_classes=None, 
global _pool=True, 
reuse=None, 
scope='resnet_v2_5@'): 
blocks = [ 
Block('block1', bottleneck, [(256, 64, 1)] * 2 + [(256, 64, 2)]), 
Block(‘block2', bottleneck, [(512, 128, 1)] * 3 + [(512, 128, 2)]), 
Block(‘block3', bottleneck, [(1024, 256, 1)] * 5 + [(1024, 256, 2) 153 
Block('‘block4', bottleneck, [ (2048, 512, 1)] * 3)] 
return resnet_v2(inputs, blocks,-num_classes, global_pool, 


include_root_block=True, reuse=reuse, scope= scope) 


101 ERY ResNet 和 50 层 相 比 , 主要 变化 就 是 把 4 个 Blocks AY units 数量 从 3、4、6、 
3 提升 到 了 3、4、23、3。 即 将 第 三 个 残 差 学 习 Block 的 units 数 增加 到 接近 4 倍 。 


def resnet_v2_101(inputs, 
num_classes=None, 
global pool=True, 


reuse=None, 
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scope='resnet_v2_101'): 
blocks = [ 
Block('blocki', bottleneck, [(256, 64, 1)] * 2 + [(256, 64, 2)]), 
Block('block2', bottleneck, [(512, 128, 1)] * 3 + [(512, 128, 2)]), 
Block 'block3‘, bottleneck, [(1024, 256, 1)] * 22 + [(1024, 256, 2)]), 
Block('block4', bottleneck, [(2048, 512, 1)] * 3)] 
return resnet_v2(inputs, blocks, num_classes, global_pool, 


include root_block=True, reuse=reuse, scope= scope) 


然后 152 层 的 ResNet， 则 是 将 第 二 个 Block 的 units 数 提高 到 8， 将 第 三 个 Block 的 
units 数 提 高 到 36。Units 数量 提升 的 主要 场所 依然 是 第 三 个 Block。 


def resnet v2 152(inputs, 
num_classes=None, 
global_pool=True, 
reuse=None, 
scope='resnet_v2_152'): 
blocks = [ 
Block('blocki', bottleneck, [(256, 64, 1)] * 2 + [(256, 64, 2)]), 
Block('block2', bottleneck, [(512, 128, 1)] * 7 + [(512, 128, 2)]), 
Block('block3', bottleneck, [(1024, 256, 1)] * 35 + [(1024, 256, 2)]), 
Block('block4', bottleneck, [(2048, 512, 1)] * 3)] 
return resnet_v2(inputs, blocks, num_classes, global_pool, 


include root_block=True, reuse=reuse, scope=scope) 


最 后 ,200 ERY ResNet 相 比 152 层 的 ResNet, 没 有 继续 提升 第 三 个 Block 的 units 2X, 
而 是 将 第 二 个 Block 的 units 数 一 下 子 提升 到 了 23。 | 


def resnet v2 268(inputs, 
num_classes=None, 
global_pool=True, 
reuse=None, 
scope='resnet_v2_200'): 
blocks = [ 
Block('blocki', bottleneck, [(256, 64, 1)] * 2 + [(256, 64, 2)]), 
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Block('block2‘, bottleneck, [(512, 128, 1)] * 23 + [(512, 128, 2)]), 
Block('block3', bottleneck, [(1024, 256, 1)] * 35 + [(1024, 256, 2)]), 
Block('‘block4', bottleneck, [(2048, 512, 1)] * 3)] 

return resnet_v2(inputs, blocks, num_classes, global pool, 


include_root_block=True, reuse=reuse, scope= scope) 


后 我 们 使 用 一 直 以 来 的 评测 函数 time_tensorflow run， 来 测试 152 ERAN ResNet 
me ILSVRC 2015 冠军 的 版 本 ) 的 forward 性 能 。 图 片 尺寸 回归 到 AlexNet, VGGNet 
的 224x224, batch size 为 32。 我 们 将 is training 这 个 FLAG 置 为 False ， 然 后 使 用 
resnet v2 152 创建 网 络 ， 有 再 由 time tensorflow run 国 数 评测 其 forward 性 能 。 由 于 篇 幅 原 

， 就 不 对 其 训练 时 的 性 能 进行 测试 了 ， 感 兴趣 的 读者 可 以 测试 求解 ResNet 全 部 参数 的 
aoe 需要 的 时 间 。 


batch_size = 32 

height, width = 224, 224 

inputs = tf.random_uniform((batch_size, height, width, 3)) 
with slim.arg scope(resnet_arg scope(is_training=False)): 


net, end_points = resnet_v2_152(inputs, 1000) 


init = tf.global_ variables initializer() 
sess = tf.Session() 

sess.run(init) 

num_batches=100 


time_tensorflow_run(sess, net, “Forward") 


这 里 可 以 看 到 ， 虽 然 这 个 ResNet 有 152 HGR, 但 其 forward 计算 耗 时 并 没有 特别 夸 
张 , 相 比 VGGNet 和 Inception V3 ,大 概 只 增加 了 50% ,每 batch 为 0.202 秒 。 这 说 明 ResNet 
也 是 一 个 实用 的 卷 积 神 经 网 络 结构 , 不 仅 支 持 超 深 网 络 的 训练 , 同时 在 实际 工业 应 用 时 也 
有 不 差 的 forward 性 能 。 


2016-12-10 21:23:43.676945: step ©, duration = 0.202 
2016-12-10 21:23:45.699069: step 10, duration = 0.203 
2016-12-10 21:23:47.722190: step 20, duration = 0.203 
2016-12-10 21:23:49.745069: step 30, duration = 0.202 
8.202 


2016-12-10 21:23:51.770527: step 40, duration 
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2016-12-10 21:23:53.797204: step 50, duration = 0.202 

2016-12-10 21:23:55.822281: step 60, duration = @.203 

2016-12-10 21:23:57.848449: step 70, duration = 0.203 

2016-12-10 21:23:59.877548: step 80, duration = 9.203 

2016-12-10 21:24:01.906566: step 98, duration = 0.203 

2016-12-10 21:24:03.734302: Forward across 100 steps, 0.203 +/- 9.000 sec / 
batch 


本 节 我 们 完整 地 讲解 了 ResNet 的 基本 原理 及 其 TensorFlow 实现 , 也 设计 了 一 系列 不 
ERER ResNet。 读 者 若 感 兴趣 ， 可 以 自行 探索 不 同 深度 、 乃 至 不 同 残 差 单 元 结构 的 
ResNet 的 分 类 性 能 。 例 如 ，ResNet 原 论文 中 主要 增加 的 是 第 二 个 和 第 三 个 Block 的 units 
数 ， 读 者 可 以 尝试 增加 其 余 两 个 Block 的 units 数 ， 或 者 修改 bottleneck 单元 中 的 depth, 
depth_bottleneck 等 参数 ， 可 对 其 参数 设置 的 意义 加 深 理 解 。ResNet 可 以 算是 深度 学 习 中 
一 个 里 程 碑 式 的 突破 ,真正 意义 上 文 持 了 极 深 神 经 网 络 的 训练 ,其 网 络 结构 值得 反复 思索 ， 
如 Google 等 已 将 其 融合 到 自家 的 Inception Net H, 并 取得 了 非常 好 的 效果 。 相 信 ResNet 
的 成 功 也 会 局 发 其 他 在 次 度 学 习 领 域 研究 的 灵感 。 


6.5 “ 卷 积 神经 网 络 发 展 趋势 


本 节 ， 我 们 简单 回顾 卷 积 神经 网 络 的 历史 ， 图 6-18 所 示 大 致 勾勒 出 最 近 几 十 年 卷 积 
神经 网 络 的 发 展 方向 ,Perceptron( 感知 机 ) 于 1957 年 由 Frank Resenblatt 提 出 ,而 Perceptron 
不 仅 是 卷 积 网 络 ， 也 是 神经 网 络 的 始祖 。Neocognitron ( 神经 认 知 机 ) 是 一 种 多 层级 的 神 
经 网 络 ， 由 日 本 科学 家 Kunihiko Fukushima 于 20 世纪 80 年 代 提 出 ， 具 有 一 定 程度 的 视 
觉 认 知 的 功能 ， 并 直接 启发 了 后 来 的 卷 积 神经 网 络 。LeNet-5 由 CNN 之 父 Yann LeCun 
于 1997 年 提出 ， 首 次 提出 了 多 层级 联 的 卷 积 结构 ， 可 对 手写 数字 进行 有 效 识别 。 可 以 看 
到 前 面 这 三 次 关于 卷 积 神经 网 络 的 技术 突破 , 间隔 时 间 非 常 长 , 需要 十 余年 甚至 更 久 才 出 
现 一 次 理论 创新 。 而 后 于 2012 年 , Hinton 的 学 生 Alex 依靠 8 层 深 的 卷 积 神经 网 络 一 举 获 
得 了 ILSVRC 2012 比赛 的 冠军 ， 瞬 间 点 燃 了 卷 积 神经 网 络 研究 的 热潮 。AlexNet 成 功 应 
用 了 ReLU 激活 函数 、Dropout、 最 大 覆盖 池 化 、LRN Æ., GPU 加 速 等 新 技术 ,并 启发 了 
后 续 更 多 的 技术 创新 ， 卷 积 神经 网 络 的 研究 从 此 进入 快车 道 。 
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6-18 ” 卷 积 神经 网 络 发 展 图 


在 AlexNet 之 后 , 我 们 可 以 将 卷 积 神经 网 络 的 发 展 分 为 两 类 , 一 类 是 网 络 结构 上 的 改 
进 调整 ( 图 6-18 中 的 左 侧 分 支 ), 男 一 类 是 网 络 深度 的 增加 ( 图 6-18 中 的 右 侧 分 支 )。 2013 
年 ， 颜 水 成 教授 的 Network in Network 工作 首次 发 表 ， 优 化 了 卷 积 神经 网 络 的 结构 ， 并 
推广 了 1x1 的 卷 积 结构 。 在 改进 卷 积 网 络 结构 的 工作 中 ， 后 继 者 还 有 2014 年 的 Google 
Inception Net V1， 提 出 了 Inception Module 这 个 可 以 反复 推倒 的 高 效 的 卷 积 网 络 结构 ， 
并 获得 了 当年 ILSVRC 比 赛 的 冠军 .2015 年 初 的 Inception V2 提 出 了 Batch Normalization, 
大 大 加 速 了 训练 过 程 ， 并 提升 了 网 络 性 能 。2015 年 年 末 的 Inception V3 则 继续 优化 了 网 
络 结构 , 提出 了 Factorization in Small Convolutions 的 思想 , 分解 大 尺寸 卷 积 为 多 个 小 卷 
积 乃 至 一 维 卷 积 。 而 男 一 条 分 文 上 ， 许 多 研究 工作 则 致力 于 加 深 网 络 层 数 ，2014 Œ, 
ILSVRC 比赛 的 亚军 VGGNet 全 程 使 用 3x3 的 卷 积 ， 成 功 训练 了 深 达 19 层 的 网 络 ， 当 年 
的 季军 MSRA-Net 也 使 用 了 非常 深 的 网 络 。2015 F, 微软 的 ResNet 成 功 训 练 了 152 BR 
的 网 络 ， 一 举 拿 下 了 当年 ILSVRC 比赛 的 冠军 ，top-5 错误 率 降低 至 3.46%。 其 后 又 更 新 
J ResNet V2， 增 加 了 Batch Normalization， 并 去 除了 激活 层 而 使 用 Identity Mapping 或 
Preactivation， 进 一 步 提升 了 网 络 性 能 。 此 后 ，Inception ResNet V2 融合 了 Inception Net 
优 民 的 网 络 结构 ， 和 ResNet 训练 极 深 网 络 的 残 差 学 习 模块 ， 集 两 个 方向 之 长 ， 取 得 了 更 
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好 的 分 类 效果 。 


我 们 可 以 看 到 ， 目 AlexNet 于 2012 年 提出 后 ， 深 度 学 习 领 域 的 研究 发 展 极其 迅速 ， 
基本 上 每 年 甚至 每 几 个 月 都 会 出 现 新 一 代 的 技术 。 新 的 技术 往往 伴随 着 新 的 网 络 结构 , 更 
帝 的 网 络 的 训练 方法 等 ， 并 在 图 像 识别 等 领域 不 断 创 造 新 的 惟 确 率 记录 。 至 今 ，ILSVRC 
比赛 和 卷 积 神经 网 络 的 研究 依然 处 于 高 速 发 展期 ， CNN 的 技术 日 新 月 异 。 当 然 其 中 不 可 
忽视 的 推动 力 是 , 我 们 拥有 了 更 快 的 GPU 计算 资源 用 以 实验 ， 以 及 非常 方便 的 开源 工具 
(比如 TensorFlow ) 可 以 让 研究 人 员 快 速 地 进行 探索 和 尝试 。 在 以 前 ,研究 人 员 如 果 没 有 
像 Alex 那样 高 超 的 编程 实力 能 自己 实现 cuda-convnet, 可 能 都 没 办 法 设计 CNN 或 者 快速 
地 进行 实验 。 现 在 有 了 TensorFlow， 研 究 人 员 和 开发 人 员 都 可 以 简单 而 快速 地 设计 神经 
网 络 结构 并 进行 研究 、 测 试 、 部 姥 乃 至 实用 。 
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TensorFlow 实现 循环 神 
经 了 网络 及 Word2Vec 


本 章 我 们 将 探索 循环 神经 网 络 (RNN ) 和 Word2Vec”, 并 在 TensorFlow 上 实现 它们 。 
循环 神经 网 络 是 在 NLP (Nature Language Processing， 自 然 语言 处 理 ) 领域 最 常 使 用 的 
神经 网 络 结构 ， 和 卷 积 神经 网 络 在 图 像 识别 领域 的 地 位 类 似 。 而 Word2Vec 则 是 将 语言 中 
的 字 词 转化 为 计算 机 可 以 理解 的 稠密 向 量 (Dense Vector )， 进 而 可 以 做 其 他 上 自然 语言 
理 任务 ， 比 如 文本 分 类 、 词 性 标注 、 机 器 翻译 等 。 


7.1 TensorFlow 实现 Word2Vec 


Word2Vec 也 称 Word Embeddings, 中 文 有 很 多 叫 法 , 比较 普 便 的 是 “ 词 向 量 ” 或 “ 词 
ERA” o Word2Vec 是 一 个 可 以 将 语言 中 字 词 转 为 向 量 形式 表达 (Vector Representations ) 
的 模型 , 我 们 先 来 看 看 为 什么 要 把 字 词 转 为 向 量 。 图 像 、 音 频 等 数据 天 然 可 以 编码 并 存储 
为 稠密 向 量 的 形式 ， 比 如 图 片 是 像素 点 的 稠 答 矩 阵 ， 音 频 可 以 转 为 声音 信号 的 频谱 数据 。 
目 然 语 言 处 理 在 Word2Vec 出 现 之 前 ,通常 将 字 词 转 成 离散 的 单独 的 符号 ,比如 将 “中 国 ” 
转 为 编号 为 5178 的 特征 , 将 “北京 ” 转 为 编号 为 3987 的 特征 。 这 即 是 One-Hot Encoder, 
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一 个 词 对 应 一 个 向 量 ( 向 量 中 只 有 一 个 值 为 1, 其余 为 0 ), 通常 需要 将 一 篇 文章 中 每 一 个 
词 都 转 成 一 个 向 量 , 而 整 篇 文章 则 变 为 一 个 稀疏 矩阵 。 对 文本 分 类 模型 , 我 们 使 用 Bag of 
Words 模型 ,将 文章 对 应 的 黎 朴 矩阵 合并 为 一 个 向 量 , 即 把 每 一 个 词 对 应 的 向 量 加 到 一 起 ， 
这 样 只 统计 每 个 词 出 现 的 次 数 ， 比 如“ 中国 ”出 现 23 次 ， 那 么 第 5178 个 特征 为 23,“ 北 
京 ”出 现 2 次 ， 那 么 第 3987 个 特征 为 2。 


使 用 One-Hot Encoder 有 一 个 问题 , 即 我 们 对 特征 的 编码 往往 是 随机 的 , 没有 提供 任 
何 关 联 信息 ,没有 考虑 到 字 词 间 可 能 存在 的 关系 。 例如, 我 们 对 “中 国 ” 和 “北京 ”的 从 
属 关 系 、 地 理 位 置 关 系 等 一 无 所 知 ,我 们 从 5178 和 3987 这 两 个 值 看 不 出 任何 信息 。 同 时 ， 
将 字 词 存储 为 稀疏 向 量 的 话 , 我 们 通常 需要 更 多 的 数据 来 训练 , 因为 稀疏 数据 训练 的 效率 
LER, TEER. EH 向 量 表达 (Vector Representations ) 则 可 以 有 效 地 解决 这 
个 问题 。 向 量 空间 模型 ( Vector Space Models ) 可 以 将 字 词 转 为 连续 值 (相对 于 One-Hot 
编码 的 离散 值 ) 的 向 量 表达 ， 并 且 其 中 意思 相近 的 词 将 被 映射 到 向 量 空间 中 相近 的 位 置 。 
向 量 空间 模型 在 NLP 中 主要 依赖 的 假设 是 Distributional Hypothesis， 即 在 相同 语 境 中 出 
现 的 词 其 语义 也 相近 。 向 量 空间 模型 可 以 大 致 分 为 两 类 ， 一 类 是 计数 模型 ， 比 如 Latent 
Semantic Analysis; 男 一 类 是 预测 模型 ( 比如 Neural Probabilistic Language Models )。 计 
数 模型 统计 在 语料库 中 , 相 邻 出 现 的 词 的 频率 , 再 把 这 些 计 数 统计 结果 转 为 小 而 稠密 的 矩 
RE; 而 预测 模型 则 根据 一 个 词 周围 相 邻 的 词 推 测 出 这 个 词 ， 以 及 它 的 空间 向 量 。 


Word2Vec 即 是 一 种 计算 非常 高 效 的 ， 可 以 从 原始 语 料 中 学 习 字 词 空 间 向 量 的 预测 模 
型 。 它 主要 分 为 CBOW( Continuous Bag of Words ) 和 Skip-Gram 两 种 模式 , 其 中 CBOW 
是 从 原始 语句 (比如: PEE eRe) 推测 目标 字 词 (比如: 北京 为 而 Skip-Gram 
则 正好 相反 ， 它 是 从 目标 字 词 推测 出 原始 语句 ， 其 中 CBOW 对 小 型 数据 比较 合适 ， 而 
Skip-Gram 在 大 型 语 料 中 表现 得 更 好 。 


使 用 Word2Vec 训练 语 料 能 得 到 一 些 非常 有 趣 的 结果 , 比如 意思 相近 的 词 在 向 量 空间 
中 的 位 置 会 接近 。 从 一 份 Google 训练 超大 语 料 得 到 的 结果 中 看 ， 诸 如 Beijing, London, 
New York 等 城市 的 名 字 会 在 向 量 空间 中 聚集 在 一 起 ,而 Cat, Dog, Fish 等 动物 词汇 也 会 
聚集 在 一 起 。 同 时 ， 如 图 7-1 所 示 ，Word2Vec 还 能 学 会 一 些 高 阶 的 语言 概念 ， 比 如 我 们 
计算 “man” 到 “woman” 的 向 量 ( 词汇 都 是 向 量 空间 中 的 点 ， 可 计算 两 点 间 的 向 量 )， 
会 发 现 它 和 “king” 到 “queen” 的 向 量 非 常 相 似 ， 即 模型 学 到 了 男人 与 女人 的 关系 ; 同 
时 , “walking” 到 “walked” 的 向 量 和 “swimming” 到 “swam” 的 向 量 非常 相似 ， 模 型 
学 到 了 进行 时 与 过 去 时 的 天 系 。 
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Male-Female Verb tense Country-Capital 
图 7-1 Word2Vec 模型 可 学 习 到 的 抽象 概念 

预测 模型 Neural Probabilistic Language Models 通常 使 用 最 大 似 然 的 方法 , 在 给 定 前 
面 的 语句 AWE, ABENE w, 的 概率 。 但 它 存在 的 一 个 比较 严重 的 问题 是 计 
算 量 非常 大 , 需要 计算 词汇 表 中 所 有 单词 出 现 的 可 能 性 ,在 Word2Vec 的 CBOW 模型 中 ， 
不 需要 计算 完整 的 概率 模型 , 只 需要 训练 一 个 二 元 的 分 类 模型 , 用 来 区 分 真实 的 目标 词汇 
和 编造 的 词汇 ORE ) 这 两 类 ， 如 图 7-2 所 示 。 这 种 用 少量 噪声 词汇 来 估计 的 方法 ， 类 似 
于 蒙特 卡 洛 模拟 。 


Noise classifier 


Hidden layer 





Projection layer 


the cat sits on the mat | 


7-2 CBOW 模型 结构 示意 图 
当 模 型 预测 真实 的 目标 词汇 为 高 概率 , 同时 预测 其 他 噪声 词汇 为 低 概率 时 , 我 们 训练 
的 学 习 目 标 就 被 最 优化 了 。 用 编造 的 噪声 词汇 训练 的 方法 被 称 为 Negative Sampling。 用 
这 种 方法 计算 loss function 的 效率 非常 高 , 我 们 只 需要 计算 随机 选择 的 个 词汇 而 非 词汇 
表 中 的 全 部 词汇 , 因此 训练 速度 非常 快 。 在 实际 中 , 我 们 使 用 Noise-Contrastive Estimation 
(NCE) Loss， 同 时 在 TensorFlow 中 也 有 ttnn.nce loss() 直 接 实现 了 这 个 losso 


在 本 节 中 我 们 将 主要 使 用 Skip-Gram 模式 的 Word2Vec， 先 来 看 一 下 它 训 练 样本 的 构 
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造 ， 以 “the quick brown fox jumped over the lazy dog” 这 人 句 话 为 例 。 我 们 要 构造 一 个 
语 境 与 目标 词汇 的 映射 关系 , 其 中 语 境 包括 一 个 单词 左边 和 右边 的 词汇 , 假设 我 们 的 宰 窗 
尺寸 为 1, 可 以 制造 的 映射 关系 包括 [the, brown] > quick.[quick, fox] — brown [brown， 
jumped] > fox 等 。 因 为 Skip-Gram 模型 是 从 目标 词汇 预测 语 境 ， 所 以 训练 样本 不 再 是 
[the, brown] 一 quick, MÆ quick > the 和 quick 一 brown。 我们 的 数据 集束 变 为 了 
(quick, the), (quick, brown), (brown, quick), (brown, fox). IIVI, AARRE 
从 目标 词汇 quick 预测 出 语 境 the， 同 时 也 需要 制造 随机 的 词汇 作为 负 样 本 ORAE ), 我 们 
希望 预测 的 概率 分 布 在 正 样 本 the 上 尽 可 能 大 ， 而 在 随机 产生 的 负 样本 上 尽 可 能 小 。 这 里 
的 做 法 就 是 通过 优化 算法 比如 SGD 来 更 新 模型 中 Word Embedding 的 参数 ， 让 概率 分 
的 损失 函数 (NCE Loss) 尽 可 能 小 。 这 样 每 个 单词 的 Embedded Vector 就 会 随 着 训练 过 
程 不 断 调整 , 直到 处 于 一 个 最 适合 语 料 的 空间 位 置 。 这 样 我 们 的 损失 函数 最 小 , 最 侍 合 语 
料 ， 同 时 预测 出 正确 单词 的 概率 也 最 高 。 


下 面 开 始 用 TensorFlow 实现 Word2Vec 的 训练 。 首先 依然 是 载 入 各 种 依赖 库 , 这 里 因 
为 要 从 网 络 下 载 数 据 ， 因 此 需要 的 依赖 库 比 较 多 。 本 节 代 码 主 要 来 自 TensorFlow 的 开源 
实现 


import collections 
import math 

import os 

import random 
import zipfile 
import numpy as np 
import urllib 


import tensorflow as tf 


我 们 先 定 义 下 载 文本 数据 的 函数 。 这 里 使 用 urllib.request.urlretrieve 下 载 数据 的 压缩 
文件 并 核对 文件 尺寸 ， 如 果 已 经 下 载 了 文件 则 跳 过 。 


url = ‘'http://mattmahoney.net/dc/' 


def maybe _download(filename, expected_bytes): 
if not os.path.exists(filename): 


filename, = urllib.request.urlretrieve(url + filename, filename) 


statinfo = os.stat(filename) 
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if statinfo.st_size == expected bytes: 
print('Found and verified', filename) 
else: 
print(statinfo.st_size) 


raise Exception( 


‘Failed to verify ' + filename + '. Can you get to it with a browser?') 


return filename 


filename = maybe _download('‘text8.zip', 31344016) 


接 下 来 解压 下 载 的 压缩 文件 , 并 使 用 世 compat as_str 将 数据 转 成 单词 的 列表 。 通 过 程 
序 输出 ， 可 以 知道 数据 最 后 被 转 为 了 一 个 包含 17005207 个 单词 的 列表 。 


def read data(filename ) : 
with zipfile.ZipFile(filename) as f: 
data = tf.compat.as_str(f.read(#.namelist()[@])).split() 


return data 


words = read_data(filename) 


print('Data size’, len(words)) 


接 下 来 创建 vocabulary 词汇 表 ， 我 们 使 用 collections.Counter 统计 单词 列表 中 单词 的 
频数 , 然后 使 用 most_common 方法 取 top 50000 频数 的 单词 作为 vocabulary。 再 创建 一 个 
dict， 将 top 50000 词汇 的 vocabulary 放 入 dictionary 中 ， 以 便 快速 查询 ，Python 中 dict 
查询 复杂 度 为 0(1)， 性 能 非常 好 。 接 下 来 将 全 部 单词 转 为 编号 ( 以 频数 排序 的 编号 )，top 
50000 词汇 之 外 的 单词 , 我 们 认定 其 为 Unkown (未 知 )， 将 其 编号 为 0， 并 统计 这 类 词汇 
的 数量 。 下 面 遍 历 单词 列表 ， 对 其 中 每 一 个 单词 ， 先 判断 是 否 出 现在 dictionary 中 ， 如 果 
是 则 转 为 其 编号 ， 如 果 不 是 则 转 为 编号 0( Unkown )。 最 后 返回 转换 后 的 编码 ( data )、 每 
个 单词 的 频数 统计 ( count )、 词 汇 表 (dictionary) 及 其 反 转 的 形式 (reverse dictionary )。 


vocabulary_size = 50000 


def build dataset(words ) : 
count = [F UNK"; -1]] 


count. extend(collections.Counter(words).most_common(vocabulary_size - 1)) 
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dictionary = dict() 
for word, ee in count: 
dictionary[word] = len(dictionary) 
data = list() 
unk_count = 6 
for word in words: 
if word in dictionary: 
index = dictionary[word ] 
else: 
index = 6 
unk_count += 1 
data.append(index) 
count[@][1] = unk_count 
reverse dictionary = dict(zip(dictionary.values(), dictionary.keys())) 
return data, count, dictionary, reverse dictionary 


data, count, dictionary, reverse dictionary = build _dataset(words) 


然后 我 们 删除 原始 单词 列表 , 可 以 节约 内 存 。 再 打印 vocabulary 中 最 高 频 出 现 的 词汇 
及 其 数量 ( 包括 Unknown 词汇 )， 可 以 看 到 “UNK” 这 类 一 共有 418391 +, BELAY 
“the”" 有 1061396 个 ,排名 第 二 的 “of* 有 593677 个 ,我 们 的 data 中 前 10 个 单词 为 ['anarchism,'， 
'originated'，'as'，'a'，'term'，'of，'abuse'，'first'，'used'，'against]， 对 应 的 编写 为 [5235，3084,， 
12, 6, 195,, 2:3137; 46, 59, 156] 
del words | 
print('Most common words (+UNK)', count[:5]) 


print( ‘Sample data’, data[:10], [reverse_dictionary[i] for i in data[:10]]) 


下 面 生 成 Word2Vec 的 训练 样本 。 我们 根据 前 面 提 到 的 Skip-Gram 模式 (MAB ine al 
反 推 语 境 ), 将 原始 数据 “the quick brown fox jumped over the lazy dog 转 为 (quick, the), 
(quick, brown), (brown, quick), 、(brown，fox) 等 样本 。 我 们 定义 函数 generate_batch 用 来 
生成 训练 用 的 batch 数据 ,参数 中 batch size 为 batch 的 大 小 ; skip_ window 指 单词 最 远 可 
以 联系 的 距离 ， 设 为 1 代表 只 能 跟 紧邻 的 两 个 单词 生成 样本 ， 比 如 quick 只 能 和 前 后 的 音 
词 生 成 两 个 样本 ( quick,the ) 和 ( quick,brown ); num_skips 为 对 每 个 单词 生成 多 少 个 样本 ， 
它 不 能 大 于 skip window 值 的 两 倍 ， 并 且 batch size 必须 是 它 的 整数 倍 ( 确保 每 个 batch 
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包含 了 一 个 词汇 对 应 的 所 有 样本 )。 我 们 定义 单词 序号 data_index 为 global 变量 ， 因 为 我 
们 会 反复 调用 generate_ batch, 所 以 要 确保 data_index 可 以 在 函数 generate batch 中 被 修改 。 
我 们 也 使 用 assert 确保 num skips 和 batch size 满足 前 面 提 到 的 条 件 。 然 后 用 np.ndarray 
将 batch Fil labels 初始 化 为 数组 , 这 里 定义 span 为 对 某 个 单词 创建 相关 样本 时 会 使 用 到 的 
单词 数量 ,包括 目标 单词 本 和 喘 和 它 前 后 的 单词 ， 因 此 span=2*skip window+1。 并 创建 一 
个 最 大 容量 为 span 的 deque， 即 双向 队列 ， 在 对 deque 使 用 append 方法 添加 变量 时 ， 只 
会 保留 最 后 插入 的 span 个 变量 。 


data_index = 6 


def generate_batch(batch_size, num skips, skip window): 
global data_index : 
assert batch size % num skips == 
assert num_skips <= 2 * skip window 
batch = np.ndarray(shape=(batch_size), dtype=np.int32) 
labels = np.ndarray(shape=(batch_size, 193 dtype=np. int32) 
span = 2 * skip window + 1 | 


buffer = collections .deque(maxlen=span) 


接 下 来 从 序号 data_index 开始 ,把 span 个 单词 顺序 读 入 buffer 作为 初始 值 。 因 为 buffer 
是 容量 为 span 的 deque,， 所 以 此 时 buffer 已 填充 满 ， 后 续 数 据 将 替换 掉 前 面 的 数据 。 然 后 
我 们 进入 第 一 层 循环 (次数 为 batch size//num skips ), 每 次 循环 内 对 一 个 目标 单词 生成 样 
本 。 现 在 buffer 中 是 目标 单词 和 所 有 相关 单词 ,我们 定义 target=skip window， 即 buffer 
中 第 skip window 个 变量 为 目标 单词 。 然 后 定义 生成 样本 时 需要 避免 的 单词 列表 
targets_to_avoid， 这 个 列表 一 开始 包括 第 skip_window 个 单词 ( 即 目标 单词 )， 因 为 我 们 
要 预测 的 是 语 境 单词 ,不 包括 目标 单词 本 身 。 接 下 来 进入 第 二 层 循环 ( 次数 为 num_ skips ), 
每 次 循环 中 对 一 个 语 境 单词 生成 样本 ， 先 产生 随机 数 ， 直 到 随机 数 不 在 targets_ to_avoid 
中 ,代表 可 以 使 用 的 语 境 单词 ,然后 产生 一 个 样本 , feature 即 目标 词汇 buffer[skip_ window]， 
label 则 是 bufferftargetl 。 同 时 ， 因 为 这 个 语 境 单词 被 使 用 了 ， 所 以 再 把 它 添 加 到 
targets_to_avoid 中 过 滤 。 在 对 一 个 目标 单词 生成 完 所 有 样本 后 ( num_skips 个 样本 ), 我 们 
骨 读 入 下 一 个 单词 (同时 会 抛 挥 buffer 中 第 一 个 单词 )， 即 把 滑 窗 向 后 移动 一 位 ， 这 样 我 
们 的 目标 单词 也 向 后 移动 了 一 个 , 语 境 单词 也 整体 后 移 了 , 便 可 以 开始 生成 下 一 个 目标 单 
词 的 训练 样本 。 两 层 循环 完成 后 ,我们 已 经 获得 了 batch_size 个 训练 样本 ,将 batch 和 labels 
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作为 水 数 结 采 返 


for _ in range(span): 
buffer.append(data[data_index]) 
data_index = (data_index + 1) % len(data) 
for i in range(batch_size // num_skips): 
target = skip window 
targets to_avoid = [ skip window ] 
for j in range(num_skips): 
while target in targets_to_avoid: 
target = random.randint(@, span - 1) 
targets to _avoid.append(target) 
batch[i * num_skips + j] = buffer[skip_ window] 
labels[i * num_skips + j, ©] = buffer[target] 
buffer.append(data[data_index]) 
data index = (data_index + 1) % len(data) 


return batch, labels 


这 里 调用 generate batch 函数 简单 测试 一 下 其 功能 。 人 参数 中 将 batch_size KY 8, 
num skips 4 2, skip window 设 为 1， 然 后 执行 generate batch 并 获得 batch 和 labels. 
再 打印 batch 和 labels 的 数据 ， 可 以 看 到 我 们 生成 的 样本 是 “3084 originated -> 5235 
anarchism”, “3084 originated -> 12 as”, “12 as -> 3084 originated” 等 。 以 第 一 个 样本 
为 例 ，3084 是 目标 单词 originated 的 编号 ， 这 个 单词 对 应 的 语 境 单词 是 anarchism， 其 编 
号 为 5235。 


batch, labels = generate_batch(batch_size=8, num_skips=2, skip _window=1) 
for i in range(8): S RRE : 
| print(batch[i], reverse _dictionary[batch[i]], '->', labels[i, 9], 
reverse dictionary[labels[i, 9]]) | 

我 们 定义 训练 时 的 batch size 为 128; embedding size 为 128, embedding size 即将 单 
词 转 为 稠密 向 量 的 维度 ， 一 般 是 50~1000 这 个 范围 内 的 值 ， 这 里 使 用 128 作为 词 向 量 的 
维度 ; skip window 即 前 面 提 到 的 单词 间 最 远 可 以 联系 的 距离 , 设 为 1; num_skips 即 对 每 
个 目标 单词 提取 的 样本 数 ， 设 为 2。 然 后 我 们 再 生成 验证 数据 valid_examples， 这 里 随机 
抽取 一 些 频 数 最 高 的 单词 ， 看 向 量 空 间 上 跟 它 们 最 近 的 单词 是 否 相关 性 比较 高 。 
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valid size=16 指 用 来 抽取 的 验证 单词 数 , valid_window=100 是 指 验 证 单词 只 从 频数 最 高 的 
100 个 单词 中 抽取 ， 我们 使 用 np.random.choice 函数 进行 随机 抽取 。 而 num sampled 是 训 
练 时 用 来 做 负 样 本 的 噪声 单词 的 数量 。 


batch_size = 128 
embedding size = 128 
Skip window = 1 


num_skips = 2 


valid size = 16 
valid_window = 100 
valid examples = np.random.choice(valid_ window, valid size, replace=False) 


num_sampled = 64 


下 面 就 开始 定义 Skip-Gram Word2Vec 模型 的 网 络 结构 。 我 们 先 创建 一 个 tf.Graph 并 
设置 为 默认 的 graph。 然 后 创建 训练 数据 中 inputs 和 labels 的 placeholder， 同 时 将 前 面 随 
机 产生 的 valid examples 转 为 TensorFlow 中 的 constant 。 接 下 来 ， 先 使 用 with 
tf.device(\/cpu:0") 限 定 所 有 计算 在 CPU 上 执行 ,因为 接 下 去 的 一 些 计算 操作 在 GPU 上 可 能 
还 没有 实现 。 然 后 使 用 tf.random uniform 随机 生成 所 有 单词 的 词 向 量 embeddings， 单 词 
表 大 小 为 50000， 向 量 维度 为 128， 有 再 使 用 tfhnn.embedding lookup 查找 输入 train inputs 
对 应 的 向 量 embed。 下 面 使 用 之 前 提 到 的 NCE Loss 作为 训练 的 优化 目标 ， 我 们 使 用 
tf.truncated normal 初始 化 NCE Loss 中 的 权重 参数 nce weights, FE nce biases 初始 
化 为 0。 最 后 使 用 tf.nn.nce_loss 计算 学 习 出 的 词 向 量 embedding 在 训练 数据 上 的 loss， 并 
使 用 给 reduce mean 进行 汇总 。 


graph = tf.Graph() 
with graph.as default(): 


train_inputs = tf.placeholder(tf.int32, shape=[batch_size]) 
train_labels = tf.placeholder(tf.int32, shape=[batch_size, 1]) 
valid dataset = tf.constant(valid_examples, dtype=tf.int32) 


with tf.device('/cpu:@'): 
embeddings = tf.Variable( 
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tf.random_uniform([vocabulary_size, embedding size], -1.0, 1.0)) 


embed = tf.nn.embedding lookup(embeddings, train_inputs) 


nce_weights = tf.Variable( 
tf.truncated_normal([vocabulary_size, embedding size], 
stddev=1.0 / math.sqrt(embedding size))) 


nce_biases = tf.Variable(tf.zeros([vocabulary_size])) 


loss = tf.reduce_mean(tf.nn.nce_loss(weights=nce weights, 
biases=nce_ biases, 
labels=train_ labels, 
inputs=embed, 
num_sampled=num_sampled, 


num_classes=vocabulary_size)) 


我 们 定义 优化 器 为 SGD， 且 学 习 速 率 为 1.0。 然 后 计算 嵌入 向 量 embeddings 的 L2 Jë 
Zi norm, #4} embeddings 除 以 其 L2 范 数 得 到 标准 化 后 的 normalized _ embeddings。 有 再 使 
用 tfnn.embedding lookup 查询 验证 单词 的 舱 入 向 量 ， 并 计算 验证 单词 的 舱 入 向 量 与 词汇 
表 中 所 有 单词 的 相似 性 。 最 后 ， 我 们 使 用 tt.global variables initializer 初始 化 所 有 模型 参 
数 。 


optimizer = tf.train.GradientDescentOptimizer(1.0).minimize(loss) 


norm = tf.sqrt(tf.reduce_sum(tf.square(embeddings), 1, keep dims=True)) 
normalized embeddings = embeddings / norm 
valid embeddings = tf.nn.embedding_lookup( 
normalized embeddings, VA ES 
Similarity = tf.matmul( ae 


valid_embeddings, normalized embeddings, transpose _b=True) 


init = tf.global variables initializer() 


我 们 定义 最 大 的 迭代 次 数 为 10 万 次 ,然后 创建 并 设置 默认 的 session， 并 执行 参数 初 
始 化 。 在 每 一 步 训 练 和 迭代 中 , 先 使 用 generate batch 生成 一 个 batch 的 inputs 和 1labels 数据 ， 
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并 用 它们 创建 feed_dict。 然 后 使 用 session.run0) 执 行 一 次 优化 器 运算 ( 即 一 次 参数 更 新 ) 
和 损失 计算 ， 并 将 这 一 步 训 练 的 loss 累积 到 average_loss。 


num_steps = 100001 


with tf.Session(graph=graph) as session: 
init.run() 


print("Initialized" ) 


average loss = @ 
for step in range(num_steps): 
batch inputs, batch _labels = generate_batch( 
batch size, num skips, skip window) 


feed dict = {train_inputs : batch_inputs, train_labels : batch_labels} 


_, loss val = session.run([optimizer, loss], feed _dict=feed_dict) 


average loss += loss val 


之 后 每 2000 次 循环 ， 计 算 一 下 平均 loss 并 显示 出 来 。 


if step 为 2000 == @: 
if step > 0: 
average loss /= 2000 


print("Average loss at step ", step, , average loss) 


average loss = 6 


10000 次 循环 , 计算 一 次 验证 单词 与 全 部 单词 的 相似 度 , 并 将 与 每 个 验证 单词 最 相 
似 的 8 个 单词 展示 出 来 。 | | 


if step % 10000 == @: 
Sim = similarity.eval() 
for i in range(valid size): 
“valid word = reverse _dictionary[valid_examples[i]] 
top_k = 8 | > 
nearest = (-sim[i, :]).argsort()[1:top_k+1] 


log str = "Nearest to %s:" % valid_word 
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for k in range(top_k): 
close word = reverse _dictionary|nearest[k]] 
log str = "%s %s," % (log str, close word) 
print(log str) 


final embeddings = normalized _embeddings.eval() 





以 下 为 展示 出 来 的 平均 损失 , 以 及 与 验证 单词 相似 度 最 高 的 单词 , 可 以 看 到 我 们 训练 
的 模型 对 名 词 、 动 词 、 形 容 词 等 类 型 的 单词 的 相似 词汇 的 识别 都 非常 准确 。 因 此 由 
Skip-Gram Word2Vec 得 到 的 向 量 空间 表达 (Vector Representations ) 是 非常 高 质量 的 , i 
义 词 在 向 量 空 间 上 的 位 置 也 是 非常 靠近 的 。 
Average loss at step 92000 : 4.70622572589 
Average loss at step 94000 : 4.61680726242 
Average loss at step 96000 : 4.73945830989 
Average loss at step 98000 : 4.63924189049 
Average loss at step 100000 : 4.67957950294 
Nearest to five: six, four, seven, eight, three, zero, two, nine, 
Nearest to state: government, amalthea, habsburg, asparagales, cegep, barrac 
uda, dasyprocta, connecticut, 
Nearest to over: three, reginae, from, replace, trapezohedron, around, brine, 

iit; 
Nearest to were: are, have, had, was, while, been, be, wct, 
Nearest to at: in, on, mitral, agouti, triglycerides, excerpts, during, with 
in, | 
Nearest to called: agouti, akita, homeworld, layouts, dasyprocta, UNK, cegep, 
referred, 

Nearest to about: disclosed, antimatter, vec, advocaten: surgeries, defiance, 
| disband, legionnaire, 
Nearest to which: that, this, gollancz, but, what, also, it, and, 
Nearest to three: four, five, six, two, seven, eight, iit, nine, 
Nearest to that: which, however, what, this, when, gollancz, but, ramps, 
Nearest to new: nonviolent, aquila, assyrian, gardening, local, charcot, sub 
Sistence, ssbn, 


Nearest to eight: seven, six, nine, four, five, zero, three, mitral, 
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Nearest to no: any, thaler, boiled, gyroscopic, pontificia, grist, occupies, 
michelob, 

Nearest to UNK: cebus, agouti, cegep, dasyprocta, mitral, reginae, callithri 

X, microcebus, 

Nearest to used: referred, known, written, found, dasyprocta, able, shown, m 
itral, 


Nearest to up: out, them, him, passes, eat, pianos, gaku, off, 


下 面 定义 一 个 用 来 可 视 化 Word2Vec 效果 的 国 数 。 这 里 low_dim_embs 是 降 维 到 2 维 
的 单词 的 空间 向 量 ， 我 们 将 在 图 表 中 展示 每 个 单词 的 位 置 。 我 们 使 用 plt.scatter (一 般 将 
matplotlib.pyplot 命名 为 plt ) 显示 散 点 图 (单词 的 位 置 ), 并 用 plt.annotate 展示 单词 本 身 。 
同时 ， 使 用 plt.savefig 保存 图 片 到 本 地 文件 。 
def a dim. embs, labels, filename='tsne.png' ): 
assert low dim embs.shape[g] >= len(labels), "More labels than embeddings" 
plt.figure(figsize=(18, 18)) 
for i, label in enumerate(labels): 
x, y = low_dim_embs[i,: ] 
plt.scatter(x, y) 
plt.annotate(label, 
xy=(xX, Y), 
xytext=(5, 2), 
textcoords='offset points’, 
ha='right’, 


va=' bottom’ ) 


plt.savefig(filename) 


我 们 使 用 sklearn.manifold.TSNE 实现 降 维 ,这 里 直接 将 原始 的 128 ZEN KA I SES 
2 维 , 再 用 前 面 的 plot_with labels 函数 进行 展示 。 这 里 只 展示 词 频 最 高 的 100 个 单词 的 可 
视 化 结 
from sklearn.manifold import TSNE 


import matplotlib.pyplot as plt 
tsne = TSNE(perplexity=30, n_components=2, init='pca', n_iter=50@0) 
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plot only = 100 
low dim embs = tsne.fit transform(final embeddings[:plot only,:]) 
labels = [reverse_dictionary[i] for i in range(plot only)] 


plot with labels(low dim embs, labels) 


7-3 所 示 即 为 可 视 化 效果 , 可 以 看 到 其 中 距离 相近 的 单词 在 语义 上 具有 很 高 的 相似 
性 。 例 如 , 左上 角 为 单个 字母 的 聚集 地 ; 而 冠 词 he an, a 和 another 则 聚集 在 左边 中 部 ， 
稍微 靠 右 一 点 则 有 him, himself, its, itself 和 them 聚集 ; 左下 方 有 will、could、would、 
then。 这 里 我 们 只 展示 了 部 分 截图 ， 感 兴趣 的 读者 可 以 在 程序 画 出 来 的 大 图 中 进行 观察 。 
对 Word2Vec Ap E 的 评价 ， 除 了 可 视 化 观察 ， 常 用 的 方式 还 有 Analogical Reasoning, B 
直接 预测 语义 、 语 境 上 的 关系 , 例如 让 模型 回答 “king is queen as father is to ”这 类 
[A “pu N Reasoning 可 以 比较 好 地 评测 Word2 Vec 模型 的 准确 性 。 在 训练 Word2 Vec 
模型 时 , 为 了 获得 比较 好 的 结果 , 我 们 可 以 使 用 大 规模 的 语料库 , 同时 需要 对 参数 进行 调 
试 ， 选 取 最 适合 的 值 。 
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7.2 TensorFlow 实现 基于 LSTM 的 语言 模型 


循环 神经 网 络 出 现 于 20 世纪 80 年 代 ， 在 其 发 展 早 期 应 用 不 是 特别 丰富 。 最 近 几 
年 由 于 神经 网 络 结构 的 进步 和 GPU 上 深度 学 习 训练 效率 的 突破 ，RNN 变 得 越 来 越 流行 。 
RNN 对 时 间 序 列 数据 非常 有 效 ， 其 每 个 神经 元 可 通过 内 部 组 件 保存 之 前 输入 的 信息 。 


人 每 次 思考 时 不 会 重头 开始 ， 而 是 保留 之 前 思考 的 一 些 结果 为 现在 的 决策 提供 支持 。 
例如 我 们 对 话 时 , 我 们 会 根据 上 下 文 的 信息 理解 一 句 话 的 含义 ,而 不 是 对 每 一 句 话 重头 进 
行 分 析 。 传统 的 神经 网 络 不 能 实现 这 个 功能 , 这 可 能 是 其 一 大 缺陷 。 例 如 卷 积 神经 网 络 虽 
然 可 以 对 图 像 进行 分 类 , 但 是 可 能 无 法 对 视频 中 每 一 帧 图 像 发 生 的 事情 进行 关联 分 析 , 我 
们 无 法 利用 前 一 帧 图 像 的 信息 ， 而 循环 神经 网 络 则 可 以 解决 这 个 问题 。RNN 的 结构 如 图 
7-4 所 示 ， 其 最 大 特点 是 神经 元 的 某 些 输出 可 作为 其 输入 再 次 传输 到 神经 元 中 ， 因 此 可 以 


利用 之 前 的 信息 。 
© 


图 7-4 ”循环 神经 网 络 示例 


如 图 7-4 所 示 , x 是 RNN 的 输入 , 4 是 RNN 的 一 个 节点 , 而 及 是 输出 。 我 们 对 这 个 
RNN 输入 数据 x,， 然 后 通过 网 络 计算 并 得 到 输出 结果 h, 再 将 某 些 信息 (state, KAS) 传 
到 网 络 的 输入 。 我 们 将 输出 h, 5S label 进行 比较 可 以 得 到 误差 ， 有 了 这 个 误差 之 后 ， 瓯 能 
使 用 梯度 下 降 (Gradient Descent ) 和 Back-Propagation Through Time (BPTT ) 方法 对 网 
络 进行 训练 ，BPTT 与 训练 前 馈 神 经 网 络 的 传统 BP 方法 类 似 ， 也 是 使 用 反 向 传播 求解 梯 
度 并 更 新 网 络 参数 权重 。 另 外 , 还 有 一 种 方法 叫 Real-Time Recurrent Learning (RTRL), 
它 可 以 正 向 求解 梯度 , 不 过 其 计算 复杂 度 比较 高 。 此 外 , 还 有 介 于 BPTT 和 RTRL 这 两 种 
方法 之 间 的 混合 方法 ， 可 用 来 缓解 因为 时 间 序 列 间隔 过 长 市 来 的 梯度 弥散 的 问题 。 
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如 采 我 们 将 RNN 中 的 循环 展开 成 一 个 个 串联 的 结构 ， 如 图 7-5 所 示 ， 就 可 以 更 好 地 
理解 循环 神经 网 络 的 结构 了 。RNN 展开 后 ， 类 似 于 有 一 系列 输入 x 和 一 系列 输出 天 的 串 
联 的 普通 神经 网 络 , 上 一 层 的 神经 网 络 会 传递 信息 给 下 一 层 。 这 种 串联 的 结构 天 然 就 非常 
适合 时 间 序 列 数据 的 处 理 和 分 析 。 需要 注意 的 是 , 展开 后 的 每 一 个 层级 的 神经 网 络 , 其 参 

效 都 是 相同 的 ,我 们 并 不 需要 训练 成 百 上 干 层 神经 网 络 的 参数 ， 只 需要 训练 一 层 RNN 的 
参数 , 这 环 是 它 结构 巧妙 的 地 方 , 这 里 共享 参数 的 思想 和 卷 积 网 络 中 权 值 共享 的 方式 也 很 
类 似 。 





图 7-5 循环 神经 网 络 展 开 示 意图 


RNN 虽然 被 设计 成 可 以 处 理 整个 时 间 序 列 信 息 ， 但 是 其 记忆 最 深 的 还 是 最 后 输入 的 
一 些 信和 号。 而 更 早 之 前 的 信号 的 强度 则 越 来 越 低 , 最 后 只 能 起 到 一 点 辅助 的 作用 ， 即 决定 
RNN 输出 的 还 是 最 后 输入 的 一 些 信和 号。 这样 的 缺陷 导致 RNN 在 早期 的 作用 并 不 明显 , 慢 
慢 淡 出 了 大 家 的 视野 。 而 后 随 着 Long Sort Term Memory (LSTM ) ”的 发 现 ， 循 环 神经 
网 络 重新 回 到 了 大 家 的 视野 ,并 未 渐 在 众多 领域 取得 了 很 大 的 成 功 和 突破 ,包括 语音 识别 、 
文本 分 类 、 语 言 模型 、 自 动 对 话 、 机 器 翻译 、 图 像 标 注 等 领域 。 


对 于 某 些 简单 的 问题 , 可 能 只 需要 最 后 输入 的 少量 时 序 信息 即 可 解决 。 但 对 某 些 复杂 
问题 ， 可 能 需要 更 早 的 一 些 信 息 ， 甚 至 是 时 间 序 列 开 头 的 信息 ， 但 间隔 太 远 的 输入 信息 ， 
RNN 是 难以 记忆 的 ， 因 此 长 程 依赖 (Long-term Dependencies ) 是 传统 RNN 的 致命 伤 。 
LSTM 由 Schmidhuber 教授 于 1997 年 提出 ， 它 天 生 就 是 为 了 解决 长 程 依赖 而 设计 的 ， 不 
需要 特别 复杂 地 调试 超 参 数 ， 默 认 就 可 以 记 住 长 期 的 信息 。LSTM 的 内 部 结构 相 比 RNN 
更 复杂 ， 如 图 7-6 所 示 ， 其 中 包含 了 4 层 神经 网 络 ， 其 中 小 圆圈 是 point-wise 的 操作 ， 比 
如 疝 量 加 法 、 点 乘 等 ， 而 小 矩形 则 代表 一 层 可 学 习 参 数 的 神经 网 络 。LSTM 单元 上 面 的 那 
条 直线 代表 了 LSTM 的 状态 state， 它 会 贯穿 所 有 串联 在 一 起 的 LSTM 单元 ， 从 第 一 个 
LSTM 单元 一 直流 向 最 后 一 个 LSTM 单元 ， 其 中 只 有 少量 的 线性 干预 和 改变 。 状 态 state 
在 这 条 隧道 中 传递 时 , LSTM 单元 可 以 对 其 添加 或 删 减 信息 , 这 些 对 信息 流 的 修改 操作 由 
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LSTM 中 的 Gates 控制 。 这 些 Gates 中 包含 了 一 个 Sigmoid 层 和 一 个 向 量 点 乘 的 操作 ， 这 
个 Sigmoid 层 的 输出 是 0 到 1 之 间 的 值 , 它 直 接 控制 了 信息 传递 的 比例 。 如 果 为 0 代表 不 
允许 信息 传递 ,为 1 则 代表 让 信息 全 部 通过 ,每 个 LSTM 单元 中 包含 了 3 个 这 样 的 Gates， 
用 来 维护 和 控制 单元 的 状态 信息 。 凭借 对 状态 信息 的 储存 和 修改 , LSTM 单元 就 可 以 实现 
长 程 记忆 ss 





图 7-6 LSTM 结构 示意 图 


在 RNN 的 各 种 变种 中 , 除了 LSTM， 另 一 个 非常 流行 的 网 络 结构 是 Gated Recurrent 
Unit (GRU )。GRTU 的 结构 如 图 7-7 所 示 ， 相 比 LSTM， 其 结构 更 加 简单 ， 比 LSTM 减少 
了 一 个 Gate， 因 此 计算 效率 更 高 (每 个 单元 每 次 计算 时 可 节约 几 个 矩阵 运算 操作 )， 同 时 
占用 的 内 存 也 相对 较 少 。 在 实际 使 用 中 ，LSTM 和 GRU 的 差异 不 大 ， 一 般 最 后 得 到 的 准 
确 率 指标 等 都 近似 ， 但 是 相对 来 说 ，GRU 达到 收敛 状态 时 所 需要 的 迭代 数 更 少 ， 也 可 以 
说 是 训练 速度 更 快 。 





(a) Long Short-Term Memory (b) Gated Recurrent Unit 


Illustration of (a) LSTM and (b) gated recurrent units. (a) 1, f and o are the input, forget 
and output gates, respectively. cand ¢ denote the memory cell and the new memory cell content. (b) 
r and z are the reset and update gates, and A and h are the activation and the candidate activation. 


7-7 LSTM 和 GRU 的 结构 


循环 神经 网 络 的 应 用 非常 广 ， 不 过 用 的 最 多 的 地 方 还 是 目 然 语言 处 理 。 用 RNN 训练 
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出 的 语言 模型 (Language Modeling )， 其 效果 令 人 惊叹 。 我 们 可 以 输入 大 量 莎 士 比 亚 的 剧 
本 文字 等 信息 给 RNN， 训 练 得 到 的 语言 模型 可 以 模仿 水 士 比 亚 的 文字 ， 自 动 生成 类 似 的 
诗歌 、 剧 本 。 下 面 的 英文 为 语言 模型 生成 的 钞 翁 的 诗歌 , 可 以 说 是 非常 逼真 ， 几 乎 可 以 以 
假 乱 真 。 


PANDARUS: 


Alas, I think he shall be come approached and the day 
When little srain would be attain'd into being never fed, 
And who is but a chain and subjects of his death, 


I should not sleep. 
Second Senator: 


They are away this miseries, produced upon my soul, 
Breaking and strongly should be buried, when I perish 
The earth and thoughts of many states. 


DUKE VINCENTIO: 
Well, your wit is in the care of side and that. 
Second Lord: 


They would be ruled after this chamber, and 
my fair nues begun out of the fact, to be conveyed, 


Whose noble souls I'll have the heart of the wars. 
Clown: 

Come, sir, I will make did behold your worship. 
VIOLA: 

I'll drink it. 


语言 模型 是 NLP 中 非常 重要 的 一 个 部 分 ， 同 时 也 是 语音 识别 、 机 器 翻译 和 由 图 上 三 生 
成 标题 等 任务 的 基础 和 关键 。 语 言 模型 是 一 个 可 以 预测 语句 的 概率 模型 ,给 定 上 文 的 语 境 ， 
即 历史 出 现 的 单词 ， 语 言 模型 可 以 预测 下 一 个 单词 出 现 的 概率 。Penn Tree Bank (PTB ) 
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是 在 语言 模型 训练 中 经 常 使 用 的 一 个 数据 集 , 它 的 质量 比较 高 , 可 以 用 来 评测 语言 模型 的 
准确 率 , 同时 数据 集 不 大 , 训练 也 比较 快 。 下 面 我 们 就 使 用 LSTM 来 实现 一 个 语言 模型 ， 
其 网 络 结构 来 目 论 文 Recurrent Neural Network Regularization. 


首先 , 我 们 下 载 PTB 数据 集 并 解压 ， 确 保 解 压 后 的 文件 路 径 和 接 下 来 Python 的 执行 
路 径 一 致 。 这 个 数据 集中 已 经 做 了 一 些 预 处 理 , 它 包含 1 万 个 不 同 的 单词 ,有 句 尾 的 标记 ， 
同时 将 罕见 的 词汇 统一 处 理 为 特殊 字符 。 本 节 代 码 主要 来 自 TensorFlow 的 开源 实现 ”。 


wget http://www.fit.vutbr.cz/~imikolov/rnnlm/simple-examples.tgz 


tar xvf simple-examples.tgz 


我 们 下 载 TensorFlow Models 库 ， 并 进入 目录 models/tutorials/rnn/ptb。 然 后 载 入 常用 
的 库 ， 和 TensorFlow Models 中 的 PTB reader, 借助 它 读 取 数据 内 容 。 读 取 数 据 内 容 的 操 
作 比较 烦琐 , 主要 是 将 单词 转 为 唯一 的 数 子 编码 , 以 便 神经 网 络 处 理 。 这 部 分 实现 的 细 市 
我 们 不 做 讲解 ， 感 兴趣 的 读者 可 以 阅读 其 源码 。 
git clone https://github.com/tensorflow/models.git 
cd models/tutorials/rnn/ptb 
import time 
import numpy as np 
import tensorflow as tf 


import reader 


下 面 定 义 语言 模型 处 理 输入 数据 的 class ，PTBInput。 其 中 只 有 一 个 初始 化 方法 
int (0, 我 们 读 取 参 数 config 中 的 batch_size, num_steps 到 本 地 变量 ， 这 里 num steps 
是 LSTM 的 展开 步 数 ( unrolled steps of LSTM )。 然 后 计算 每 个 epoch 的 size, 即 每 个 epoch 
内 需要 多 少 轮训 练 的 迭代 ， 可 以 通过 将 数据 长 度 整 除 batch_size 和 num steps 得 到 。 我 们 
使 用 reader.ptb_producer 获取 特征 数据 input data, VA label 数据 targets ,这 里 的 rss data 
和 targets 都 已 经 是 定义 好 的 tensor 了 ， 每 次 执行 都 会 获取 一 个 batch 的 数据 。 


class PTBInput(object): 


def init__(self, config, data, name=None): 
self.batch_size = batch size = config.batch_size 
self.num_steps = num_steps = config.num_steps 


self.epoch_size = ((len(data) // batch_size) - 1) // num_steps 
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self.input_data, self.targets = reader.ptb_producer( 


data, batch_size, num_steps, name=name) 


接着 定义 语言 模型 的 class，PTBModel。 首 先 依然 是 初始 化 函数 _init_()， 其 中 包含 
三 个 参数 ， 训 练 标 记 is_training 、 配 置 参 数 config, VAR PTBInput 类 的 实例 input_. FeAl] 
读 取 input 中 的 batch size 和 num_steps， 然 后 读 取 config 中 的 hidden size, vocab size 到 
本 地 变量 。 这 里 hidden size 是 LSTM 的 节点 数 ，vocab size 是 词汇 表 的 大 小 。 


class PTBModel(object): 


def _init__(self, is training, config, input_): 


self. input = input_ 


batch_size = input_.batch_size 
num_steps = input_.num_steps 
size = config.hidden_size 


vocab_size = config.vocab size 


#¢ PORE RA tf.contrib.mn.BasicLSTMCell 设置 我 们 默认 的 LSTM 单元 , 其 中 隐 含 节点 
效 为 前 面 提取 的 hidden_size, forget_bias ( 即 forget gate 的 bias) 为 0，state is_tuple 也 为 
True， 这 代表 接受 和 返回 的 state 将 是 2-tuple 的 形式 。 同 时 ， 如 果 在 训练 状态 且 Dropout 
的 keep_prob 小 于 1， 则 在 前 面 的 Istm cell 之 后 接 一 个 Dropout 层 ， 这 里 的 做 法 是 调用 
tf.contrib.rnn.DropoutWrapper 函数 。 最 后 使 用 RNN HERA tf.contrib.mn.MultiRNNCell 
将 前 面 构造 的 lstm_cell ZEZE] cell, HEBRAA config 中 的 num layers, 这 里 同样 
将 state is tuple 设 为 True， 并 用 cell.zero_ state 设置 LSTM 单元 的 初始 化 状态 为 0。 这 里 
需要 注意 ，LSTM 单元 可 以 恋 入 一 个 单词 并 结合 之 前 储存 的 状态 state 计算 下 一 个 单词 出 
现 的 概率 分 布 ， 并 且 每 次 读 取 一 个 单词 后 它 的 状态 state 会 被 更 新 。 


def lstm cell(): 
return tf.contrib.rnn.BasicLSTMCell( 
size, forget_bias=@0.0, state is tuple=True) 
attn cell = lstm cell 
if is training and config.keep prob < 1: 
def attn_cell(): 


return tf.contrib.rnn.Dropoutwrapper( 
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lstm cell(), output keep_prob=config.keep_prob) 
cell = tf.contrib.rnn.MultiRNNCell( 


[attn cell() for _ in range(config.num_layers) ], 


state is tuple=True) 


self. initial state = cell.zero state(batch size, tf.float32) 


我 们 创建 网 络 的 词 艇 入 embedding 部 分 ，embedding 即 为 将 one-hot 的 编码 格式 的 单 
词 转化 为 向 量 表达 形式 , 在 7.1 节 Word2Vec 中 已 经 讲 到 了 。 因 为 这 部 分 在 GPU 中 还 没有 
很 好 的 实现 ， 所 以 我 们 依然 使 用 with tf.device("/cpu:0") 将 计算 限定 在 CPU 中 进行 。 然 后 
我 们 初始 化 embedding 和 矩阵， 其 行 数 设 为 词汇 表 数 vocab size， 列 数 〈( 即 每 个 单词 的 向 量 
表达 的 维 数 ) 设 为 hidden_size， 和 LSTM 单元 中 的 隐 含 节点 数 一 致 。 在 训练 过 程 中 ， 
embedding 的 参数 可 以 被 优化 和 更 新 。 接 下 来 使 用 tf.nn.embedding lookup 查询 单词 对 应 
的 向 量 表达 获得 inputs。 同 时 ， 如 果 为 训练 状态 则 再 添加 上 一 层 Dropout. 


with tf.device("/cpu:@"): 
embedding = tf.get_variable( 
"embedding", [vocab size, size], dtype=tf.float32) 
inputs = tf.nn.embedding lookup(embedding, input_.input_data) 


if is training and config.keep prob < 1: 


inputs = tf.nn.dropout(inputs, config.keep_prob) 


接 下 来 定义 输出 outputs， 我 们 先 使 用 给 variable_scope 将 接 下 来 的 操作 的 名 称 设 为 
RNN。 一 般 为 了 控制 训练 过 程 ， 我 们 会 限制 梯度 在 反 向 传播 时 可 以 展开 的 步 数 为 一 个 固 
定 的 值 , 而 这 个 步 数 也 就 是 num stepso 这 里 我 们 设置 一 个 循环 , 循环 长 度 为 num_steps， 
来 控制 梯度 的 传播 。 并 且 从 第 2 次 循环 开始 , 我 们 使 用 tf get varible scope.reuse variables 
设置 复 用 变量 。 在 每 次 循环 内 ， 我 们 传 入 inputs 和 state PERAI LSTM 单元 ( 即 cell ) 
中 。 这 里 注意 inputs 有 3 个 维度 ， 第 1 个 维度 代表 是 batch 中 的 第 几 个 样本 ， 第 2 个 维度 
代表 是 样本 中 的 第 几 个 单词 ， 第 3 个 维度 是 单词 的 向 量 表 达 的 维度 ， 而 inputs[:, 
time_step，:] 代 表 所 有 样本 的 第 time_step 个 单词 。 这 里 我 们 得 到 输出 cell_output 和 更 新 后 
的 state。 最 后 我 们 将 结果 cell_output 添加 到 输出 列表 outputs. 


outputs = [] 


state = self. _initial_state 
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with tf.variable scope("RNN"): 
for time_step in range(num_steps): 
if time_step > 9: tf.get variable scope().reuse variables() 
(cell_output, state) = cell(inputs[:, time_step, :], state) 
outputs.append(cell_ output) 


我 们 将 output MAA tf.concat 串 接 到 一 起 ， 并 使 用 tfreshape 将 其 转 为 一 个 很 长 的 
一 维 向 量 。 接 下 来 是 Softmax 层 ， 先 定义 权重 softmax_w 和 偏 置 softmax_ b， 然 后 使 用 
tf.matmul 将 输出 output 乘 上 权重 并 加 上 偏 置 得 到 logits ， 即 网 络 最 后 的 输出 。 然 后 定义 损 
失 loss， 这 里 直接 使 用 tf.contrib.legacy seq2seq.sequence loss by example 计算 输出 logits 
FU targets 的 偏差 ,这 里 的 sequence loss 即 target words 的 average negative log probability, 
其 定义 为 loss = 一 ed IN Prarget;o 然后 使 用 tf.reduce_sum 汇总 batch 的 误差 ， 册 计算 平 

” 艾 到 每 个 样本 的 误差 cost。 并 且 我 们 保留 最 终 的 状态 为 final_state。 此 时 ， 如 果 不 是 训练 
状态 ， 则 直接 返回 。 


output = tf.reshape(tf.concat(outputs, 1), [-1, size]) 
softmax_w = tf.get_variable( 
“softmax_w", [size, vocab_size], dtype=tf.float32) 
softmax_b = tf.get_variable("softmax_b", [vocab_size], dtype=tf.float32) 
logits = tf.matmul(output, softmax_w) + softmax_b 
loss = tf.contrib.legacy seq2seq.sequence loss by example( 
[logits], 
[tf.reshape(input_.targets, [-1])], 
[tf.ones([batch_size * num_steps], dtype=tf.float32)]) 
self. cost = cost = tf.reduce_sum(loss) / batch size 


self. final_state = state. 


if not is_ training: 
return 
下 面 定 义学 习 速 率 的 变量 jr， 并 将 其 设 为 不 可 训练 。 再 使 用 tftrainable_variables 3% 
取 全 部 可 训练 的 参数 tvars。 这 里 针对 前 面 得 到 的 cost, ThA tvars 的 梯度 ， 并 用 
tf.clip_by_ global norm 设置 梯度 的 最 大 范 数 max_grad norm。 这 即 是 Gradient Clipping 的 
方法 ,控制 梯 度 的 最 大 范 数 ， 某 种 程度 上 起 到 正则 化 的 效果 。Gradient Clipping 可 以 防止 
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Gradient Explosion 梯度 爆炸 的 问题 ， 如 果 对 梯度 不 加 限制 ， 则 可 能 会 因为 迭代 中 梯度 过 
大 导致 训练 难以 收 僵 。 然 后 定义 优化 器 为 GradientDescent 优化 侨 。 再 创建 训练 操作 
_train op ,用 optimizer.apply_gradients 将 前 面 clip 过 的 梯度 应 用 到 所 有 可 训练 的 参数 tvars 
上 ,然后 使 用 给 contrib.framework.get_or_create global step 生成 全 局 统一 的 训练 步 数 。 


self. lr = tf.Variable(@.@, trainable=False) 

tvars = tf.trainable_variables() 

grads, _ = tf.clip_by_global_norm(tf.gradients(cost, tvars), 
config.max_grad_norm) 

optimizer = tf.train.GradientDescentOptimizer(self. 1r) 

self. train op = optimizer.apply_gradients(zip(grads, tvars), 


global_step=tf.contrib.framework.get_or_create_global_ step()) 


这 里 设置 一 个 名 为 new_lr (new learning rate ) 的 placeholder 用 以 控制 学 习 速 率 ， 同 
时 定义 操作 lr_ update, ‘EAA thassign 将 new Ir 的 值 赋 给 当前 的 学 习 速 率 lr。 再 定义 一 
个 assign tr 的 函数 ， 用 来 在 外 部 控制 模型 的 学 习 速 率 ， 方 式 是 将 学 习 速 率 值 传 入 _new_Ir 
这 个 placeholder, F#$44T_update_Ir 操作 完成 对 学 习 速 率 的 修改 。 

self. new_lr = tf.placeholder( 


tf.float32, shape=[], name="new_learning rate") 


self. lr update = tf.assign(self._1r, self. new_Ir) 


def assign_Ir(self, session, lr value): 


session.run(self._1lr_update, feed_dict={self._new_lr: lr_value}) 

至 此 , 模型 定义 的 部 分 就 完成 了 。 我 们 再 定义 这 个 PTBModel class 的 一 些 property， 
Python 中 的 @property 装饰 器 可 以 将 返回 变量 设 为 只 读 ， 防 止 修改 变量 引发 的 问题 。 这 里 
定义 input, initial_state, cost, final_state, lr, train_op 为 property, 方便 外 部 访问 。 

@property 


def input(self): 


return self. input 


@property 
def initial_state(self): 
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return self. initial state 


@property 
def cost(self): 


return self. cost 


@property 
def final _state(self): 


return self. final state 


@property 
def Ir(self): 


return self. lr 


@property 
def train_op(self): 


return self. train op 


接 下 来 定义 几 种 不 同 大 小 的 模型 的 参数 。 首 先是 小 模型 的 设置 , 我 们 先 解释 各 个 参数 

的 含义 ， 这 里 的 init scale 是 网 络 中 权重 值 的 初始 scale; learning rate 是 学 习 速 率 的 初始 
值 ;max_grad_norm 即 前 面 提 到 的 梯度 的 最 大 范 数 ;num_layers 是 LSTM FLESHMAN; 
num_steps 是 LSTM 梯度 肥 向 传播 的 展开 步 数 ; hidden_size 是 LSTM 内 的 隐 含 节点 数 ; 
max epoch 是 初始 学 习 速 率 可 训练 的 epoch 数 ， 在 此 之 后 需要 调整 学 习 速 率 ; 
max_max_epoch 是 总 共 可 训练 的 epoch 数 ; keep prob 是 dropout 层 的 保留 节点 的 比例 ; 
Ir_decay 是 学 习 速 率 的 私 减 速度 ; batch_size 是 每 个 batch 中 样本 的 数量 。 具体 每 个 参数 的 
值 ， 在 不 同 配置 中 对 比 才 有 意义 ， 我 们 会 在 接 下 来 的 几 个 配置 中 讨论 具体 数值 。 
class smallConfig(object): i 

init_scale = 0.1 

learning rate = 1.0 

max_grad_norm = 5 

num_layers = 2 

num_steps = 20 


hidden_size = 200 
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max_epoch = 4 
max_max_epoch = 13 
keep prob = 1.0 

lr decay = 0.5 
batch_size = 20 


vocab_size = 10000 


这 里 可 以 看 到 ,在 MediumConfig 中 型 模型 中 ,我 们 减 小 了 init scale, ABNEY 
什 不 要 过 大 ,小 一 些 有 利于 瘟 和 的 训练 ; 学 习 速 率 和 最 大 梯度 范 数 不 变 ，LSTM 层 数 也 不 
2; 这 里 将 梯度 反 向 传播 的 展开 步 数 num steps 从 20 增 大 到 35; hidden size 和 
max_max_epoch 也 相应 地 增 大 约 3 倍 ; 同时 ， 这 里 开始 设置 dropout 的 keep_prob 到 0.5, 
而 之 前 设 为 1 即 没有 dropout; 因为 学 习 的 迭代 次 数 增 大 ， 因 此 将 学 习 速率 的 衰减 速率 
lr_decay 也 减 小 了 ; batch_size 和 词汇 表 vocab_size 的 大 小 都 保持 不 变 。 


class MediumConfig(object): 
init_scale = 0.05 
learning rate = 1.0 
max_grad_norm = 5 
num_layers = 2 
num_steps = 35 
hidden_size = 650 
max_epoch = 6 
max_max_epoch = 39 
keep _prob = @.5 
lr decay = 0.8 
batch size = 20 


vocab_size = 10000 


LargeConfig 大 型 模型 进一步 缩小 了 init scale; 并 大 大 放宽 了 最 大 梯度 范 数 
max_grad_norm 到 10; 同 时 将 hidden_size 提升 到 了 1500 ,并 且 max_epoch ,max max epoch 
也 相应 地 增 大 了 ; 而 keep_drop 则 因为 模型 复杂 度 的 上 升 继续 下 降 。 学 习 速 率 的 衰减 速率 
Ir_ decay 也 进一步 减 小 。 
class LargeConfig(object): 


init_scale = 9.04 
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learning rate = 1.0 
max_grad_norm = 10 
num_layers = 2 
num_steps = 35 
hidden_size = 1500 
max_epoch = 14 
max_max_epoch = 55 
keep_prob = @.35 
Ir_decay = 1 / 1.15 
batch_size = 20 


vocab size = 10000 


这 里 的 TestConfig 只 是 为 测试 用 , 参数 都 尽量 使 用 最 小 值 , 只 是 为 了 测试 可 以 完整 运 
行 模型 。 
class TestConfig(object): 
init scale = 0.1 
learning rate = 1.0 
max_grad_norm = 1 
num_layers = 1 


num_steps = 2 


Ii 
N 


hidden_size = 
max_epoch = 1 
max_max_epoch = 1 
keep_prob = 1.0 
1r decay = Q@.5 
batch_size = 20 


vocab size = 10000 


下 面 定 义 训练 一 个 epoch 数据 的 函数 run_epoch。 我 们 记录 当前 时 间 ,初始 化 损失 costs 
和 迭代 数 iters, 并 执行 model.initial_state 来 初始 化 状态 并 获得 初始 状态 。 接 着 创建 输出 结 
果 的 字典 表 fetches， 其 中 包括 cost 和 final state， 如 果 有 评测 操作 eval op ， 也 一 并 加 入 
fetches。 接 着 我 们 进入 训练 循环 中 ， 次 数 即 为 epoch_size。 在 每 次 循环 中 ， 我 们 生成 训练 
用 的 feed_dict， 将 全 部 LSTM 单元 的 state 加 入 feed_dict 中 ， 然 后 传 入 feed_dict 并 执行 
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fetches 对 网 络 进行 一 次 训练 ， 并 拿 到 cost 和 state。 这 里 我 们 累加 cost 到 costs， 并 累加 
num steps 到 iters。 我 们 每 完成 约 10% 的 epoch ， 就 进行 一 次 结果 的 展示 ， 依 次 展示 当前 
epoch 的 进度 、perplexity ( 即 平均 cost 的 目 然 首 数 指数 ， 是 语言 模型 中 用 来 比较 模型 性 能 
的 重要 指标 , 越 低 代表 模型 输出 的 概率 分 布 在 预测 样本 上 越 好 ) 和 训练 速度 ( 单词 数 每 秒 )。 
最 后 返回 perplexity 作为 函数 结 


def run_epoch(session, model, eval_op=None, verbose=False): 
start_time = time.time() 
costs = 0.0 
iters = 6 


state = session.run(model.initial state) 


fetches = { 
"cost": model.cost, 
"final_state": model.final_ state, 
} 
if eval_op is not None: 


fetches["eval_op"] = eval_op 


for step in range(model.input.epoch_size): 
feed dict = {} 
for i, (c, h) in enumerate(model.initial state): 
feed _dict[c] = state[i].c 
feed dict[h] = state[i].h 


vals = session.run(fetches, feed dict) 
cost = vals["cost"] 


state = vals["final_state”] 


costs += cost 


iters += model.input.num_steps 


if verbose and step % (model.input.epoch size // 10) == 10: 
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print("%.3f perplexity: %.3f speed: %.0f wps" % 
(step * 1.0 / model.input.epoch_size, np.exp(costs / iters), 


iters * model.input.batch_size / (time.time() - start_time))) 


return np.exp(costs / iters) 


我 们 使 用 reader.ptb_raw_data BRDU WAGE, GEA. Sura A 
试 数据 。 这 里 定义 训练 模型 的 配置 为 SmallConfig， 读 者 也 可 自行 测试 其 他 大 小 的 模型 。 
需要 注意 的 是 测试 配置 eval_config 需 和 训练 配置 一 致 ， 这 里 将 测试 配置 的 batch_size 和 
num steps 修改 为 1。 


raw data = reader.ptb_raw_data('simple-examples/data/'‘ ) 


train_data, valid_data, test_data, _ = raw_data 


config = SmallConfig() 
eval config = SmallConfig() 
eval _config.batch_ size = 1 


eval _config.num_steps = 1 


我 们 创建 默认 的 Graph, HEH tf.random uniform initializer RK E SAIMES, 
令 参 数 范围 在 [-init_scale，init_scale] 之 间 。 然后 使 用 PTBInput #1 PTBModel 创建 一 个 用 来 
训练 的 模型 m， 以 及 用 来 验证 的 模型 mvalid 和 测试 的 模型 mtest， 其 中 训练 和 验证 模型 直 
接 使 用 前 面 的 confg， 测 试 模型 则 使 用 前 面 的 测试 配置 eval config。 
with tf.Graph().as_default(): 
initializer = tf.random_uniform_initializer(-config.init_scale, 


config.init_scale) 


with tf.name_scope("Train"): 
train_input = PTBInput(config=config, data=train_data,name="TrainInput" ) 
with tf.variable scope("Model", reuse=None, initializer=initializer): 


m = PTBModel(is_training=True, config=config, input_=train_input) 


with tf.name_scope("Valid"): ; 
valid input = PTBInput(config=config,data=valid_data,name="ValidInput") 
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with tf.variable scope("Model", reuse=True, initializer=initializer): 


mvalid = PTBModel(is_training=False, config=config, input_=valid input) 


with tf.name_scope("Test"): 
test_input = PTBInput(config=eval_config, data=test_data, 
. name="TestInput") 
with tf.variable_ scope("Model", reuse=True, initializer=initializer): 
mtest = PTBModel(is_training=False, config=eval_ config, 


input_=test_input) 


我 们 使 用 ttrain.SupervisorO) 创 建 训 练 的 管理 器 sv, 并 使 用 sv.managed session 创建 默 
认 session ， 再 执行 训练 多 个 epoch 数据 的 循环 。 在 每 个 epoch 循环 内 , 我 们 先 计算 累计 的 
学 习 速 率 衰减 值 ， 这 里 只 需 计 算 超 过 max_epoch 的 轮 数 ， 再 求 lr_ decay 的 超出 轮 数 次 韩 
即 可 。 然 后 将 初始 学 习 速 率 乘 上 累计 的 衰减 ， 并 更 新 学 习 速 率 。 然 后 在 循环 内 执行 一 个 
epoch 的 训练 和 验证 ， 并 输出 当前 的 学 习 速 率 、 训 练 和 验证 集 上 的 perplexity. 在 完成 全 音 
训练 后 ， 计 算 并 输出 模型 在 测试 集 上 的 perplexity。 


sv = tf.train.Supervisor() 
with sv.managed_session() as session: 
for i in range(config.max_max_epoch): 
lr decay = config.1r_decay ** max(i + 1 - config.max_epoch, 0.0) 


m.assign_Ir(session, config.learning rate * lr decay) 


print("Epoch: %d Learning rate: %.3f" % (i + 1, session.run(m.1r))) 
train_perplexity = run_epoch(session, m, eval_op=m.train_op, 

_. verbose=True) 
print("Epoch: %d Train Perplexity: %.3f" % (i + 1, train_perplexity)) 
valid perplexity = run_epoch(session, mvalid) 


print( “Epoch: %d Valid Perplexity: %.3f" % (i + 1, valid_perplexity)) 


test_perplexity = run_epoch(session, mtest) 


print("Test Perplexity: %.3f" % test_perplexity) 


我 们 来 看 SmallConfig 小 型 模型 的 最 后 结果 ， 我 们 在 i7 6900K 和 GTX 1080 上 的 训 
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练 速度 可 达 21000 单词 每 秒 。 同 时 在 最 后 一 个 epoch 中 ,训练 集 上 可 达 36.9 AY perplexity, 
而 验证 集 和 测试 集 上 分 别 可 达 122.3 和 116.7 的 perplexity。 


Epoch: 13 Learnign rate: 6.664 

.004 perplexity: 56.003 speed: 13005 wps 
.104 perplexity: 41.096 speed: 21836 wps 
.204 perplexity: 45.000 speed: 21891 wps 
.304 perplexity: 43.224 speed: 21738 wps 
.404 perplexity: 42.508 speed: 21529 wps 
.504 perplexity: 41.803 speed: 21565 wps 
.604 perplexity: 40.425 speed: 21470 wps 
.703 perplexity: 39.768 speed: 21418 wps 
.803 perplexity: 39.088 speed: 21480 wps 


© FO OO O O NOT O 2.0 © 


.903 perplexity: 37.753 speed: 21493 wps 
Epoch: 13 Train Perplexity: 36.949 

Epoch: 13 Valid Perplexity: 122.300 

Test Perplexity: 116.763 


读者 可 以 自行 测试 中 型 模型 和 大 型 模型 , 在 原 论文 中 提 到 在 中 型 模型 上 可 以 达到 ( 训 
练 集 : 48.45， 验 证 集 : 86.16， 测 试 集 : 82.07) 的 效果 ， 在 大 型 模型 上 ， 可 以 达到 (训练 
集 : 37.87， 验 证 集 : 82.62, WKAR: 78.29) 的 效果 。 本 节 我 们 实现 了 一 个 基于 LSTM 的 
语言 模型 ， 读 者 应 该 了 解 到 LSTM 在 处 理 文本 等 时 序数 据 中 的 作用 了 。LSTM 可 以 存储 
状态 ， 并 依靠 状态 对 当前 的 输入 进行 处 理 分 析 和 预测 。RNN 和 LSTM 赋予 了 神经 网 络 记 
忆 和 储存 过 往 信息 的 能 力 ， 可 以 模仿 人 类 的 一 些 简单 的 记忆 和 推理 功能 。 而 目前 , 注意 力 


功能 ,在 图 像 标 题 生 成 任务 中 ,包含 注意 力 机 制 的 RNN 可 以 对 某 一 区 域 的 图 像 进行 分 析 ， 
并 生成 对 应 的 文字 描述 ， 有 兴趣 的 读者 可 以 阅读 论文 Show, Attend and Tell: Neural 


[A 


Image Caption Generation with Visual Attention 了 解 这 部 分 的 相关 信息 。 


7.3 TensorFlow 实现 Bidirectional LSTM Classifier 


双向 循环 神经 网 络 ( Bidirectional Recurrent Neural Networks’ ,Bi-RNN ) 是 由 Schuster 
和 Paliwal F 1997 年 首次 提出 的 , 和 LSTM 是 在 同一 年 被 提出 的 。Bi-RNN 的 主要 目标 是 
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增加 RNN 可 利用 的 信息 。 比 如 普通 的 MLP 对 数据 长 度 等 有 限制 , 而 RNN 虽然 可 以 处 理 
不 固定 长 度 的 时 序数 据 ， 但 是 无 法 利用 某 个 历史 输入 的 未 来 信息 。Bi-RNN 则 正好 相反 ， 
它 可 以 同时 使 用 时 序数 据 中 某 个 输入 的 历史 及 未 来 数据 。 其 实现 原理 很 简单 , 将 时 序 方 向 
”相反 的 两 个 循环 神经 网 络 连接 到 同一 个 输出 , 通过 这 种 结构 , 输出 层 就 可 以 同时 获取 历史 
和 未 来 信息 了 。 


在 需要 上 下 文 环境 的 情况 中 ，Bi-RNN 将 会 非常 有 用 ， 比 如 在 手写 文字 识别 时 ， 如 果 
有 当前 要 识别 的 单词 的 前 面 和 后 面 一 个 单词 的 信息 ,那么 将 非常 有 利于 识别 。 同 样 , 我 们 
在 阅读 文章 时 ， 有 时 也 需要 通过 下 文 的 语 境 来 推测 文中 某 句 话 的 准确 含义 。 对 Language 
Modeling 这 类 问题 ， 可 能 Bi-RNN 并 不 合适 ， 因 为 我 们 的 目标 就 是 通过 前 文 预测 下 一 个 
单词 ， 这 里 不 能 将 下 文 信息 传 给 模型 。 对 很 多 分 类 问题 ， 比 如 手写 文字 识别 、 机 器 翻译 、 
蛋白 结构 预测 等 ， 使 用 Bi-RNN 将 会 大 大 提升 模型 效果 。 百 度 在 其 语音 识别 中 也 是 通过 
Bi-RNN 综合 考虑 上 下 文 语 境 ， 将 其 模型 准确 率 大 大 提升 。 


Bi-RNN 网 络 结构 的 核心 是 把 一 个 普通 的 单 向 的 RNN 拆 成 两 个 方向 ,一 个 是 随时 序 
正 向 的 , 一 个 是 逆 着 时 序 的 反 向 的 ， 如 图 7-8 所 示 。 这 样 当前 时 间 节 点 的 输出 就 可 以 同时 
利用 正 向 、 反 向 两 个 方向 的 信息 ， 而 不 像 普通 RNN 需要 等 到 后 面 时 间 市 点 才 可 以 获取 未 
来 信息 。 这 两 个 不 同方 向 的 RNN 之 间 不 会 共用 state， 即 正 向 RNN 的 输出 state 只 会 传 给 
正 向 的 RNN, 有 反 向 RNN 的 输出 只 会 传 给 芭 向 的 RNN,， 它们 之 间 没 有 直接 连接 。 如 图 7-9 
所 示 , 每 一 个 时 间 节 点 的 输入 会 分 别传 到 正 向 和 肥 向 的 RNN 中 ， 它 们 根据 各 自 的 状态 产 
生 输 出 , 这 两 份 输出 会 一 起 连接 到 Bi-RNN 的 输出 节点 , 共同 合成 最 终 输 出 。 我们 可 以 看 
到 ，Bi-RNN 的 网 络 中 虽然 两 个 方向 的 RNN 基本 没有 交集 ,但 是 因为 它们 共同 合成 了 输 
出 ， 所 以 它们 对 当前 时 间 市 点 输出 的 贡献 ( 或 造成 的 loss) 就 可 以 在 训练 中 被 计算 出 来 ， 
并 且 它 们 的 参数 会 根据 梯度 被 优化 到 合适 的 值 。 


Bi-RNN 在 训练 时 和 普通 单 向 RNN 非常 类 似 , 因为 两 个 不 同方 向 的 RNN 之 间 几 乎 没 
有 交集 ， 因 此 它们 可 以 分 别 展开 为 普通 的 前 馈 网 络 。 不 过 在 使 用 BPTT ( back-propagation 
through time ) 算法 训练 时 ， 我们 无 法 同时 更 新 状态 和 输出 。 同 时 ， 正 向 state 在 t=1 时 未 
A, HEI state 在 t=T 时 未 知 ， 即 state 在 各 目 方向 的 开始 处 未 知 ， 这 里 需要 人 工 设置 。 
此 外 ， 正 向 状态 的 导数 在 t=T 时 未 知 ， 且 反 同 state 的 导数 在 t=1 时 未 知 ， 即 state 的 导数 
在 结尾 处 未 知 ,这 里 一 般 需 要 设 为 0 代表 此 时 对 参数 更 新 不 重要 。 然 后 正式 开始 训练 步骤 : 
第 一 步 ， 我 们 对 输入 数据 做 forward pass 操作 ， 即 inference 的 操作 ， 我 们 先 沿 着 1-T Ò 
向 计算 正 向 RNN 的 state, HRAT 一 1] 方向 计算 反 向 RNN 的 state, 然后 获得 输出 output; 
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第 二 步 ， 我 们 进行 backward pass 操作 ， 即 对 目标 函数 求 导 的 操作 ， 我 们 先 对 输出 output 
KẸ, 然后 沿 着 Tol 方向 计算 正 向 RNN 的 state 的 导数 , 再 沿 着 1 了 T 方 向 计算 反 向 RNN 
的 state 的 导数 ; 第 三 步 根 据 求 得 的 梯度 值 更 新 模型 参数 ， 完 成 一 次 训练 。 


Structure Overview 


(a) unidirectional RNN 
(b) bidirectional RNN 


7-8 RNN 和 Bi-RNN 结构 对 比 图 





图 7-9 Bi-RNN 结构 示意 图 


Bi-RNN 中 的 每 个 RNN 单元 既 可 以 是 传统 的 RNN， 也 可 以 是 LSTM 单元 或 者 GRU 
单元 ， 思 路 是 一 致 的 ， 而 且 我 们 也 可 以 在 一 层 Bi-RNN BADE Bi-RNN, 好 上 一 技 
Bi-RNN 的 输出 再 作为 下 一 层 Bi-RNN 的 输入 ， 可 以 进一步 抽象 提炼 特征 。 如 果 最 后 用 作 
分 类 任务 ， 我 们 可 以 将 Bi-RNN 的 输出 序列 连接 一 个 全 连接 层 ， 或 者 连接 全 局 平均 池 化 
Global Average Pooling， 最 后 再 接 Softmax 层 ， 这 部 分 和 使 用 卷 积 网 络 的 输出 进行 分 类 
的 做 法 一 样 。 
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下 面 我 们 就 使 用 TensorFlow 实现 一 个 Bidirectional LSTM Classifier, 并 在 MNIST 数 
据 集 上 进行 测试 。 先 载 入 TensorFlow, NumPy, 以 及 TensorFlow 自 带 的 MNIST 数据 读 取 
器 。 与 最 开始 的 几 章 一 样 ， 我 们 直接 使 用 input data.read_data_sets 下 载 并 读 取 MNIST 数 
据 集 。 本 节 代 码 主要 来 自 TensorFlow-Examples 的 开源 实现 ”。 


import tensorflow as tf 
import numpy as np 
from tensorflow.examples.tutorials.mnist import input_data 


mnist = input_data.read data _sets("/tmp/data/", one_hot=True) 


然后 设置 训练 参数 。 我 们 设置 学 习 速 率 为 0.01 ( 因为 优化 器 将 选择 Adam， 所 以 学 习 
速率 较 低 )， 最 大 训练 样本 数 为 40 万 ，batch_size 为 128， 同 时 设置 每 间隔 10 次 训练 就 展 
一 次 训练 情况 。 
learning rate = 0.01 
max_samples = 466666 
batch_size = 128 
display_step = 


因为 MNIST 的 图 像 尺 寸 为 28x28, 因此 输入 n_input 为 28 ( 图像 的 宽 ), 同时 n_steps 
即 LSTM 的 展开 步 数 (unrolled steps of LSTM ),， 也 设置 为 28 (图 像 的 高 )， 这 样 图 像 的 
全 部 信息 就 都 使 用 上 了 。 和 前 一 节 使 用 LSTM 处 理 文本 数据 时 一 次 读 取 一 个 单词 类 似 ， 
这 里 是 一 次 读 取 一 行 像素 (28 MRA), 然后 下 一 个 时 间 点 再 传 入 下 一 行 像素 点 。 这 里 
n hidden (LSTM 的 隐藏 节点 数 ) 设 为 256， 而 n_ classes ( MNIST 数据 集 的 分 类 数目 ) 则 
设 为 10。 


n_input = 28 
n_steps = 28 
n_hidden = 256 


n_classes = 10 


我 们 创建 输入 x 和 学 习 目 标 y 的 place holder。 和 使 用 卷 积 神经 网 络 做 分 类 时 类 似 ， 
这 里 输入 x 中 每 一 个 样本 可 直接 使 用 二 维 的 结构 ,而 不 必 像 MLP 那样 需要 转 为 一 维 结构 。 
不 过 这 里 的 样本 的 二 维 的 含义 , 和 卷 积 网 络 中 空间 的 二 维 不 同 , 我 们 的 样本 被 理解 为 一 个 
时 间 序 列 , 第 一 个 维度 是 时 间 点 n_steps, 第 二 个 维度 是 每 个 时 间 点 的 数据 n_input。 同时， 
我 们 设 创建 最 后 的 Softmax 层 的 weights 和 biases, 这 里 直接 使 用 给 random normal 初始 化 
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s 


这 些 参数 。 因 为 是 双向 LSTM， 有 forward 和 backwrad 两 个 LSTM 的 cell, ALA weights 


is 
的 参数 量 也 翻 倍 ， 变 为 2*n_hidden。 


tf.placeholder("float", [None, n_steps, n_input]) 


x 
I 


tf.placeholder("float", [None, n_classes]) 


< 
Ii 


weights = tf.Variable(tf.random_normal([2*n_hidden, n_classes])) 


biases = tf.Variable(tf. random _normal([n_ classes])) 


直面 就 定义 Bidirectional LSTM 网 络 的 生成 函数 。 我 们 先 对 数据 进行 一 些 处 理 , 把 形 
状 为 (batch_size，n_steps，n_input ) 的 输入 变 成 长 度 为 n_steps 的 列表 ， 而 其 中 元 素 形状 
为 (batch_size，n_input)。 然 后 输入 进行 转 置 ， 使 用 tftranspose(x，[1，0，2]) 将 第 一 个 维度 
batch size 和 第 二 个 维度 n steps 进行 交换 。 接 着 使 用 tfhreshape 将 输入 x 变形 为 
(n_steps*batch_size,，n_input) 的 形状 , 再 使 用 tf.split 将 x 拆 成 长 度 为 n_steps 的 列表 ,列表 
中 每 个 tensor 的 尺寸 都 是 (batch_size，n input)， 这 样 符合 LSTM 单元 的 输入 格式 。 下 面 
使 用 tf.contrib.mn.BasicLSTMCell 分 别 创 建 forward 和 backward 的 LSTM 单元 , 它们 的 隐 
藏 节点 数 都 设 为 n_hidden， 而 forget_bias 都 设 为 1。 然 后 直接 将 正 向 的 lstm_fw_cell 和 反 
向 的 lstm bw _ cell 传 入 Bi-RNN #4 tf.nn.bidirectional_ rnn 中 , 生成 双向 LSTM, 并 传 入 x 
作为 输入 。 最 后 对 双向 LSTM 的 输出 结果 outputs 做 一 个 矩阵 乘法 并 加 上 偏 置 ， 这 里 的 参 
数 即 为 前 面 定义 的 weights 和 biases. 


def BiRNN(x, weights, biases): 


EV 
ll 


tf.transpose(x, [1, 9, 2]) 
x = tf.reshape(x, [-1, n_input]) 
x = tf.split(x, n_steps) : a 


lstm_fw_cell = tf.contrib.rnn.BasicLSTMCell(n_hidden, forget_ bias=1.0) 
lstm_bw_cell = tf.contrib.rnn.BasicLSTMCell(n_hidden, forget_ bias=1.0) 


outputs, S = tf.contrib.rnn. static -bidirectional _rnn(lstm fw_ cell, 
lstm_ bw_ cell, x, dtype=tf. poania? 


return tf. matmul (outputs [- 1], weights) + biases 


我 们 使 用 刚才 定义 好 的 函数 生成 我 们 的 Bidirectional LSTM 448, 对 最 后 输出 的 结果 
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使 用 tfinn.softmax_cross entropy with logits 进行 Softmax 处 理 并 计算 损失 ， 然 后 使 用 
tfreduce_mean 计算 平均 cost。 我 们 定义 优化 器 sere Adam， 学 习 速 率 即 为 前 面 定义 的 
learning rate, HEJH tf.argmax 得 到 模型 预测 的 类 别 , 然后 用 thequal 判断 是 否 预 测 正确 ， 
最 后 用 tf.reduce mean 求 得 平均 准确 率 。 


pred = BiRNN(x, weights, biases) 


cost = tf.reduce mean(tf.nn.softmax_cross entropy _with_logits(logits=pred, 
labels=y) ) 
optimizer = tf.train.AdamOptimizer(learning rate=learning rate) .minimize( 


cost) 


correct_pred = tf. eC argmax(pred,1), tf. en 
accuracy = tf.reduce mean(tf.cast(correct pred, tf.float32) ) 


init = tf. .global_ variables _initializer() 


下 面 开 始 执行 训练 和 测试 操作 。 第 一 步 是 执行 初始 化 参数 ,然后 定义 一 个 训练 的 循环 ， 
保持 总 训练 样本 数 ( 迭代 次 数 *batch_size ) 小 于 之 前 设 定 的 值 。 在 每 一 轮训 练 迭代 中 ,我 
们 使 用 mnist.train.next_batch 拿 到 一 个 batch 的 数据 并 使 用 reshape 改变 其 形状 。 接 着 , 将 
包含 输入 x 和 训练 目标 y 的 feed_dict 传 入 ， 执 行 一 次 训练 操作 并 更 新 模型 参数 。 每 当 迭 
代数 为 display step 的 整数 倍 时 ， 我 们 计算 一 次 当前 batch 数据 的 预测 准确 率 和 loss HR 
不 出 来 。 
with tf.Session() as sess: 

| sess. z? 
step = ORN 
while Step T batch_ size < max _samples: 

batch_x, batch_y = mnist.train.next batch(batch. size) 

| batch x = batch_x.reshape((batch_size, n_steps, n input)) 
sess.run(optimizer, feed dict={x: batch_x, y: batch_y}) 
if step % display_step == @: 3 
acc = sess.run(accuracy, feed_dict={x: batch_x, y: batch_y}) 


loss = sess.run(cost, feed_dict={x: batch_x, y: batch_y}) 
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print("Iter 


n " 


+ str(step*batch size) + ", Minibatch Loss= " + \ | 
"{:.6f}".format(loss) + ", Training Accuracy= " + \ | 
"{:.5}". format (acc) ) | 
step += 1 


print("Optimization Finished!") 


AMYAGERATS, BAVA, Xt mnist.test.images 中 全 部 的 测试 数 
据 进行 预测 ， 并 将 准确 率 展示 出 来 。 


test_len = 10000 





test_data = mnist.test.images[:test_len].reshape((-1, n_steps, n_input)) 
test label = mnist.test.labels[:test_len] | 
print("Testing Accuracy:", 


sess.run(accuracy, feed dict={x: test_data, y: test_label})) 


在 完成 了 40 万 个 样本 的 训练 后 ， 我 们 看 一 下 模型 在 训练 集 和 测试 集 上 的 表现 。 在 训 
练 集 上 我 们 的 预测 准确 率 非常 高 ， 基 本 都 是 1， 而 在 包含 10000 个 样本 的 测试 集 上 也 有 
0.983 的 准确 率 。 


Iter 394240, Minibatch Loss= 0.025686, Training Accuracy= @.99219 
Iter 395520, Minibatch Loss= @.001847, Training Accuracy= 1.90000 
Iter 396800, Minibatch Loss= @.909049, Training Accuracy= 1.98000 
Iter 398080, Minibatch Loss= 0.015611, Training Accuracy= 1.90000 
Iter 399360, Minibatch Loss= 0.009190, Training Accuracy= 1.00000 
Optimization Finished! — | 


Testing Accuracy: 0.983 


Bidirectional LSTM Classifier 在 MNIST 数据 集 上 的 表现 虽然 不 如 卷 积 神经 网 络 , 但 
也 达到 了 一 个 很 不 错 的 水 平 。 Bi-RNN 乃至 双向 LSTM 网 络 在 时 间 序 列 分 类 任务 上 能 达到 
较 好 的 表现 , 是 因为 它 能 做 到 同时 利用 时 间 序 列 的 历史 和 未 来 信息 , 结合 上 下 文 信息 , 对 
结果 进行 综合 判定 。 虽然 在 图 片 这 种 空间 结构 显著 的 数据 上 不 如 卷 积 神经 网 络 , 但 在 无 罕 
间 结 构 的 单纯 的 时 间 序 列 上 ， 相 信 Bi-RNN 和 Bi-LSTM 会 更 具 优 势 。 | 
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8.1 深度 强化 学 习 税 介 


强化 学 习 (Reinforcement Learning ) 是 机 器 学 习 的 一 个 重要 分 支 ， 主 要 用 来 解决 连 
续 决 策 的 问题 。 强 化 学 习 可 以 在 复杂 的 、 不 确定 的 环境 中 学 习 如 何 实现 我 们 设 定 的 目标 。 
强化 学 习 的 应 用 场景 非常 广 , 几乎 包括 了 所 有 需要 做 一 系列 决策 的 问题 , 比如 控制 机 器 人 
的 电机 让 它 执行 特定 任务 , 给 商品 定价 或 者 库存 管理 、 玩 视频 游戏 或 棋牌 游戏 等 。 强 化 学 
习 也 可 以 应 用 到 有 序列 输出 的 问题 中 , 因为 它 可 以 针对 一 系列 变化 的 环境 状态 , 输出 一 系 
列 对 应 的 行动 。 举 个 简单 的 例子 , 围棋 ( 乃至 全 部 棋牌 类 游戏 ) 可 以 归结 为 一 个 强化 学 习 
问题 ， 我 们 需要 学 习 在 各 种 局 势 下 如 何 走出 最 好 的 招 法 。 


一 个 强化 学 习 问 题 包 含 三 个 主要 概念 , 即 环境 状态 Environment State 和 八 行动 ( Action ) 
和 奖励 (Reward )， 而 强化 学 习 的 目标 就 是 获得 最 多 的 累计 奖励 。 在 围棋 中 ， 环 境 状态 就 
是 我 们 已 经 下 出 来 的 某 个 局 势 , 行动 是 指 我 们 在 茶 个 位 置 沙子 , 奖励 则 是 当前 这 步 棋 获得 
的 目 数 (围棋 中 存在 不 确定 性 , 在 结束 对 弈 后 计算 的 目 数 是 准确 的 , 棋局 中 获得 的 目 数 是 
估计 的 )， 而 最 终 目 标 就 是 在 结束 对 诊 时 总 目 数 超过 对 手 ， 赢 得 胜利 。 我 们 要 让 强化 学 习 
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模型 根据 环境 状态 、 行 动 和 奖励 , 学 习 出 最 佳 的 策略 ， 并 以 最 终结 果 为 目标 , 不 能 只 看 某 
个 行动 当下 市 来 的 利益 ( 比如 围棋 中 通过 菏 一 手 棋 获 得 的 实地 )， 还 要 看 到 这 个 行动 未 来 
能 市 来 的 价值 ( 比如 围棋 中 外 势 可 以 带 来 的 潜在 价值 )。 我 们 回顾 一 下 ，AutoEncoder Æ 
于 无 监督 学 习 ， 而 MLP、CNN 和 RNN 都 属于 监督 学 习 ， 但 强化 学 习 跟 这 两 种 都 不 同 。 

它 不 像 无 监督 学 习 那 样 完全 没有 学 习 目 标 ， 也 不 像 监 督学 习 那 样 有 非常 明确 的 目标 (BN 
label )， 强 化 学 习 的 目标 一 般 是 变化 的 、 不 明确 的 ， 甚 至 可 能 不 存在 绝对 正确 的 标签 。 


强化 学 习 已 经 有 几 十 年 的 历史 , 但 是 直到 最 近 几 年 深度 学 习 技 术 的 突破 , 强化 学 习 才 
有 了 比较 大 的 进展 。Google DeepMind 结合 强化 学 习 与 深度 学 习 ， 提 出 DQN (Deep 
Q-Network, RE Q 网 络 )， 它 可 以 目 动 玩 Atari 2600 系列 的 游戏 ， 并 取得 了 超过 人 类 的 
水 平 。 而 DeepMind 的 AlphaGo” 结合 了 策略 网 络 (Policy Network )、 估 值 网 络 ( Value 
Network， 也 即 DON) 与 蒙特 卡 洛 搜索 树 (Monte Carlo Tree Search )， 实 现 了 具有 超 高 
水 平 的 围棋 对 战 程 序 ， 并 战胜 了 世界 冠军 李 世 石 。DeepMind 使 用 的 这 些 深度 强化 学 习 模 
型 (Deep Reinforcement Learning ) 本 质 上 也 是 神经 网 络 ， 主 要 分 为 策略 网 络 和 估 值 网 络 
两 种 。 深度 强 化 学 习 模 型 对 环境 没有 特别 强 的 限制 , 可 以 很 好 地 推广 到 其 他 环境 , 因此 对 
强化 学 习 的 研究 和 发 展 具有 非常 重大 的 意义 。 下 面 我 们 来 看 看 深度 强化 学 习 的 一 些 实际 应 
用 例子 。 


无 人 轰 驶 是 一 个 非常 复杂 、 非常 困难 的 强化 学 习 任务 , 在 深度 学 习 出 现 之 前 ,几乎 不 
可 能 实现 。 如 图 8-1 Pras, 无 人 区 驶 汽车 通过 摄像 头 、 雷 达 、 激 光 测 距 仪 、 传 感 器 等 对 环 
境 进 行 观测 ， 获 取 到 许多 丰富 的 环境 信息 ， 然 后 通过 深度 强化 学 习 模 型 中 的 CNN, RNN 
等 对 环境 信息 进行 处 理 、 抽象 和 转化 , 再 结合 强化 学 习 算 法 框架 预测 出 最 应 该 执行 的 动作 
(加 速 、 减速 、 转 换 方向 等 ) 来 实现 目 动 驾 驶 。 无 人 驾驶 汽车 每 次 执行 的 动作 ， 都 会 让 它 
到 目的 地 的 路 程 更 短 , 这 就 是 每 次 行动 的 奖励 。 当然, 其 最 终 目标 是 安全 地 顺利 地 到 达 目 
的 地 ， 这 样 可 以 获得 最 多 的 奖励 。 
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8-1 ”自动 驾驶 包含 了 对 环境 物体 的 识别 及 对 汽车 移动 的 连续 控制 
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深度 强化 学 习 的 男 一 个 重要 应 用 是 操控 复 洒 的 机 械 痊 硬 。 一 般 情 况 下 , 我 们 需要 给 机 
械 装置 编写 逻辑 非常 复杂 的 控制 代码 来 让 它们 执行 具体 的 操作 ,比如 控制 机 械 甘 拾取 小 零 
件 。 如 果 要 拾取 某 个 特定 形状 的 小 零件 , 需要 单独 设计 一 套 逻 辑 , 来 控制 电机 进行 一 系列 
运转 , DEMAREST PD, 最 终 拾取 物体 。 但 是 这 种 做 法 拾取 物体 的 成 功率 并 
不 高 ,而 且 如 果 换 了 一 个 形状 的 零件 ,或 者 零件 的 位 置 发 生 比 较 大 的 变化 ， 那 就 需要 重新 
设计 有 逻辑 。 利 用 深度 强化 学 习 算法 , 我 们 可 以 让 机 器 目 己 学 习 如 何 拾取 物体 ， 如 图 8-2 所 
示 , 省 去 了 大 量 的 编程 工作 。 深 度 强化 学 习 模 型 中 前 几 层 可 使 用 卷 积 网 络 , 然后 可 以 使 用 
卷 积 网 络 对 摄像 头 捕 获 的 图 像 进 行 处 理 和 分 析 ,让 模型 能 看见 "环境 并 识别 出 物体 位 置 ， 
再 通过 强化 学 习 框 架 , 学 习 如 何 通过 一 系列 动作 来 最 高 效 地 拾取 物体 。 另 外 , 当 有 新 零件 
出 现时 ,只 需要 再 让 机 器 学 习 一 段 时 间 , 就 可 以 掌握 抓 取 新 零件 的 方法 , 并 且 这 个 学 习 过 
程 可 以 自动 完成 , 无 须 人 工 干预 。 事 实 上 , 通过 深度 强化 学 习 我 们 甚至 可 以 让 模型 学 会 
动 驾驶 直升机 ， 这 是 Andrew Ng 在 讲解 强化 学 习 时 提 到 的 例子 。 
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8-2 ”使 用 深度 强化 学 习 模型 控制 机 械 辟 拾取 小 零件 


同时 ， 我 们 也 可 以 使 用 深度 强化 学 习 目 动 玩 游戏 ， 如 图 8-3. 所 示 ， 用 DQN 可 学 习 自 
动 玩 Flappy Bird.DQN 前 几 层 通常 也 是 卷 积 层 ,因此 具有 了 对 游戏 图 像 像素 ( raw pixels ) 
直接 进行 学 习 的 能 力 。 前 几 层 卷 积 可 理解 和 识别 游戏 图 像 中 的 物体 , 后 层 的 神经 网 络 则 对 
Action 的 期 望 价值 进行 学 习 ， 结 合 这 两 个 部 分 ， 可 以 得 到 能 根据 游戏 像素 目 动 玩 Flappy 
Bird 的 强化 学 习 策 略 。 而 且 , 不 仅 是 这 类 简单 的 游戏 , 连 非常 复杂 的 包含 大 量 战 术 策 略 的 
《星际 争霸 2》 也 可 以 被 深度 强化 学 习 模型 掌握 。 目 前 ，DeepMind 就 在 探索 如 何 通过 次 度 
强化 学 习 训 练 一 个 可 以 战胜 《星际 争霸 2》 世 界 冠军 的 人 工 智 能 ， 这 之 后 的 进展 让 我 们 拭 
目 以 待 。 
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图 8-3 ”使 用 深度 强化 学 习 自 动 玩 Flappy Bird 


深度 强化 学 习 最 具有 代表 性 的 一 个 里 程 碑 自然 是 AlphaGo。 在 2016 Æ, Google 
DeepMind 的 AlphaGo 以 4:1 的 比分 战胜 了 人 类 的 世界 冠军 李 世 石 ， 如 图 8-4 所 示 。 围 棋 
可 以 说 是 棋 类 游戏 中 最 为 复杂 的 ，19x19 的 棋盘 给 它 带 来 了 3”” 种 状态 ,除去 其 中 非法 的 
违反 游戏 规则 的 状态 , 也 有 远 超 整 个 宇宙 中 原子 数目 的 状态 数 。 因此, 计算 机 是 无 法 通过 
像 深 蓝 那 样 的 暴力 搜索 来 战胜 人 类 的 , 要 在 围棋 这 个 项 目 上 战胜 人 类 , 就 必须 给 计算 机 抽 
象 思维 的 能 力 ， 而 AlphaGo 做 到 了 这 一 点 。 


PLEI +O: Google DeepMind 





图 8-4 AlphaGo RÈ T REESE SROKA le 


TE AlphaGo 中 使 用 了 快速 走 子 ( Fast Rollout )、 策 略 网 络 、 估 值 网 络 和 蒙特 卡 洛 搜索 
树 等 技术 。 图 8-5 所 示 为 AlphaGo 的 几 种 技术 单独 使 用 时 的 表现 ,， 横 坐标 为 步 数 ， 纵 坐标 
为 预测 的 误差 ( 可 以 理解 为 误差 越 低 模 型 效果 越 好 )， 其 中 简单 的 快速 走 子 策略 虽然 效果 
比较 一 般 , 但 是 已 经 远 胜 随机 策略 。 估 值 网 络 和 策略 网 络 的 效果 都 非常 好 ， 相 对 来 说 , R 
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略 网 络 的 性 能 更 胜 一 筹 。AlphaGo 融合 了 所 有 这 些 策略 ， 取 得 了 比 单 一 策略 更 好 的 性 能 ， 
在 实战 中 表现 出 了 惊人 的 水 平 。 
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图 8-5 AlphaGo 中 随机 策略 、 快 速 走 子 、 估 值 网 络 和 策略 网 络 (SL 和 RL 两 种 ) 的 性 能 表现 


Policy-Based (或 者 Policy Gradients ) 和 Value-Based (或 者 Q-Learning ) 是 强化 学 习 
中 最 重要 的 两 类 方法 , 其 主要 区 别 在 于 Policy-Based 的 方法 直接 预测 在 某 个 环境 状态 下 应 
该 采取 的 Action, ,而 Value Based 的 方法 则 预测 某 个 环境 状态 下 所 有 Action 的 期 望 价 值 ( Q 
值 ), 之 后 可 以 通过 选择 Q 值 最 高 的 Action 执行 策略 。 这 两 种 方法 的 出 发 点 和 训练 方式 都 
有 不 同 ， 一 般 来 说 ，Value Based 方法 适合 仅 有 少量 离散 取 值 的 Action 的 环境 ， 而 
Policy-Based 方法 则 更 通用 ， 适合 Action 种 类 非常 多 或 者 有 连续 取 值 的 Action 的 环境 。 
MAARES SIA, Policy-Based 的 方法 就 成 了 Policy Network, 而 Value-Based 的 方法 则 
成 了 Value Network, 


8-6 PANY AlphaGo 中 的 策略 网 络 预测 出 的 当前 局 势 下 应 该 采取 的 Action ,图 中 标 
注 的 数值 为 策略 网 络 输出 的 应 该 执行 某 个 Action 的 概率 ， 即 我 们 应 该 在 某 个 位 置 落 子 的 
概率 。 

8-7 所 示 为 AlphaGo 中 估 值 网 络 预测 出 的 当前 局 势 下 每 个 Action 的 期 望 价值 。 估 
值 网络 不 直接 输出 策略 ， 而 是 输出 Action 对 应 的 Q 值 ， 即 在 某 个 位 置 落 子 可 以 获得 的 期 
望 价 值 。. 随 后 ,我们 可 以 直接 选择 期 望 价值 最 大 的 位 置 落 子 ,或 者 选择 其 他 位 置 进行 探索 。 
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图 8-6 AlphaGo 中 的 策略 网 络 ， 输 出 在 某 个 位 置 落 子 的 概率 
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8-7 AlphaGo 中 的 估 值 网 络 ， 输 出 在 某 个 位 置 落 子 的 期 望 价值 


在 强化 学 习 中 ,我 们 也 可 以 建立 额外 的 model 对 环境 状态 的 变化 进行 预测 。 普 通 的 强 
化 学 习 直接 根据 环境 状态 预测 出 行动 策略 , 或 行动 的 期 望 价值 。 如 果 根 据 环境 状态 和 采取 
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的 行动 预测 接 下 来 的 环境 状态 ， 并 利用 这 个 信息 训练 强化 学 习 模型 ， 那 就 是 model-based 
RL。 对 于 复杂 的 环境 状态 ， 比 如 视频 洲 戏 的 图 像 像 素 ， 要 预测 这 么 大 量 且 复杂 的 环境 信 
息 是 非常 困难 的 。 如 果 环 境 状态 是 数量 不 大 的 一 些 离散 值 (m )， 并 且 可 采取 的 行动 也 是 
数量 较 小 的 一 些 离散 值 (n)， 那 么 环境 model 只 是 一 个 简单 的 mxn 的 转换 和 矩阵。 对 于 一 个 
普通 的 视频 游戏 环境 ， 假 设 图 像 像素 为 64x64x3 ， 可 选 行动 有 18 种 ， 那 么 我 们 光 存 储 这 
个 转换 矩阵 就 需要 大 的 难以 想象 的 内 存 空间 ( 25694*94*3x18 )。 对 于 更 复杂 的 环境 ， 我 们 
就 更 难 使 用 model 预测 接 下 来 的 环境 状态 。 而 model-free 类 型 的 强化 学 习 则 不 需要 对 环境 
状态 进行 任何 预测 , 也 不 考虑 行动 将 如 何 影响 环境 ,model-free RL 直接 对 策略 或 者 Action 
的 期 望 价值 进行 预测 ， 因 此 计算 效率 非常 高 。 当 然 ， 如 果 有 一 个 恨 好 的 model 可 以 高 效 、 
准确 地 对 环境 进行 预测 , 会 对 训练 RL 市 来 益处 ; 但 是 一 个 不 那么 精准 的 model 反而 会 严 
EFH RL 的 训练 。 因 此 ， 对 大 多 数 复杂 环境 ， 我 们 主要 使 用 model-free RL， 同 时 供给 
更 多 的 样本 给 RL 训练 ， 用 来 弥补 没有 model 预测 环境 状态 的 问题 。 


8.2 TensorFlow 实现 策略 网 络 


前 面 提 到 了 强化 学 习 中 非常 重要 的 3 ANRE Environment State、Action 和 Reward。 
在 环境 中 ， 强 化 学 习 模 型 的 载体 是 Agent， 它 负责 执行 模型 给 出 的 行动 。 环 境 是 Agent 无 
法 控制 的 , 但 是 可 以 进行 观察 ; 根据 观察 的 结果 ， 模 型 给 出 行动 ， 交 由 Agent 来 执行 ; 而 
Reward 是 在 某 个 环境 状态 下 执行 了 某 个 Action 而 获得 的 ， 是 模型 要 争取 的 目标 。 在 很 多 
任务 中 ，Reward 是 延迟 获取 的 (Delayed )， 即 某 个 Action 除了 可 以 即时 获得 Reward, 也 
可 能 跟 未 来 获得 的 Reward 有 很 大 关系 。 


”所 谓 策略 网 络 , 即 建 立 一 个 神经 网 络 模型 ， 它 可 以 通过 观察 环境 状态 , 直接 预测 出 目 
前 最 应 该 执行 的 策略 (Policy )， 执 行 这 个 策略 可 以 获得 最 大 的 期 望 收益 〈 包括 现在 的 和 
未 来 的 Reward )。 与 普通 的 监督 学 习 不 同 ,在 强化 学 习 中 ,可 能 没有 绝对 正确 的 学 习 目 标 ， 
样本 的 feature 不 再 和 label 一 一 对 应 。 对 茶 一 个 特定 的 环境 状态 , 我 们 并 不 知道 它 对 应 的 
最 好 的 Action 是 什么 ,只 知道 当前 Action 获得 的 Reward 还 有 试验 后 获得 的 未 来 的 Reward。 
我 们 需要 让 强化 学 习 模 型 通过 试验 样本 目 己 学 习 什 么 才 是 某 个 环境 状态 下 比较 好 的 
Action， 而 不 是 告诉 模型 什么 才 是 比较 好 的 Action， 因 为 我 们 也 不 知道 正确 的 答案 ( 即 样 
本 没有 绝对 正确 的 label, 只 有 估算 出 的 label )。 我 们 的 学 习 目 标 是 期 望 价值 ， 即 当前 获得 
的 Reward， 加 上 未 来 潜在 的 可 获取 的 reward。 为 了 更 好 地 让 策略 网 络 理解 未 来 的 、 潜 在 
的 Reward， 策 略 网 络 不 只 是 使 用 当前 的 Reward 作为 label， 而 是 使 用 Discounted Future 
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Reward,， 即 把 所 有 未 来 奖励 依次 乘 以 衰减 系数 y。 这 里 的 衰减 系数 一 般 是 一 个 略 小 于 但 接 
近 1 的 数 ， 防 止 没有 损耗 地 积累 导致 Reward 目标 发 散 ， 同 时 也 代表 了 对 未 来 奖励 的 不 确 
定性 的 估计 。 


r= HYN +y r+ ty" mn 


我 们 使 用 被 称 为 Policy Gradients 的 方法 来 训练 策略 网 络 。Policy Gradients 指 的 是 模 
型 通过 学 习 Action 在 Environment 中 获得 的 反馈 , 使 用 梯度 更 新 模型 参数 的 过 程 。 在 训练 
过 程 中 ， 模 型 会 接触 到 好 Action RETNA IME, AZ Action 及 它们 市 来 的 低 
期 望 价 值 ， 因 此 通过 对 这 些 样本 的 学 习 ， 我 们 的 模型 会 逐渐 增加 选择 好 Action 的 概率 ， 
并 降低 选择 坏 Action 的 概率 ， 这 样 就 未 渐 完 成 了 我 们 对 策略 的 学 习 。 和 Q-Leaming 或 估 
值 网 络 不 同 ， 策 略 网 络 学 习 的 不 是 某 个 Action 对 应 的 期 望 价值 Q， 而 是 直接 学 习 在 当前 
环境 应 该 采取 的 策略 ,比如 选择 每 个 Action 的 概率 ( 如 果 是 有 限 个 可 选 Action, 好 的 Action 
应 该 对 应 较 大 概率 , 反之 亦 然 ), 或 者 输出 某 个 Action 的 具体 数值 ( 如 果 Action 不 是 离散 
值 ， 而 是 连续 值 )。 因 此 策略 网 络 是 一 种 End-to-End ( 端 对 端 ) 的 方法 ， 可 以 直接 产生 最 
终 的 策略 。 


Policy Based 的 方法 相 比 于 Value-Based， 有 更 好 的 收敛 性 〈 通 稼 可 以 保证 收敛 到 局 
部 最 优 ， 且 不 会 发 散 )， 同 时 对 高 维 或 者 连续 值 的 Action 非常 高 效 ( 训练 和 输出 结果 都 更 
高 效 )， 同 时 能 学 习 出 这 有 随机 性 的 策略 。 例 如 ， 在 石头 剪刀 布 的 游戏 中 ， 任 何 有 规律 的 
策略 都 会 被 别人 学 习 到 并 且 被 针对 , 因此 完全 随机 的 策略 反而 可 以 立 于 不 败 之 地 ( 起 码 不 
会 输 给 别 的 策略 )。 在 这 种 情况 下 ， 可 以 利用 策略 网 络 学 到 随机 出 剪刀 、 石 头 、 布 的 策略 
(三 个 Action 的 概率 相等 )。 


我 们 需要 使 用 Gym ”辅助 我 们 进行 策略 网 络 的 训练 。Gym 是 OpenAl 推出 的 开源 的 
强化 学 习 的 环境 生成 工具 。OpenAI 是 Tesla 和 Space X 的 老板 马 斯 克 发 起 的 非 营 利 性 的 
人 工 智能 研究 机 构 。 其 主要 任务 是 研究 安全 、 开 放 的 人 工 智能 技术 , FE RA Le RE 
术 可 以 被 广泛 地 、 公 平地 普及 , 并 服务 社会 。Gym 是 OpenAl 贡献 出 来 的 非常 重要 的 开源 
项 目 , 它 的 主要 作用 是 为 研究 者 和 开发 者 提供 一 个 方便 的 强化 学 习 任务 环境 , 例如 文字 游 
戏 、 棋 类 游戏 、 视 频 图 像 游戏 等 ,并 且 让 用 户 可 以 和 其 他 人 的 强化 学 习 算法 进行 效率 、 性 
能 上 的 比较 。 


对 于 强化 学 习 的 研究 ， 之 前 主要 受制 于 两 个 因素 。 其 一 是 缺乏 高 质量 的 Benchmark, 
对 于 图 像 识 别 、 监 督学 习 等 问题 ， 我 们 有 ImageNet 这 样 的 经 过 标注 的 超大 规模 数据 集 ， 
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可 以 让 各 种 算法 在 上 面 进 行 测试 。 在 强化 学 习 中 同样 需要 大 量 的 、 丰 富 的 任务 环境 ， 而 目 
前 任务 环境 不 仅 黎 缺 , 而 且 设置 一 个 环境 的 过 程 也 非 囊 烦琐; 其 二 是 我 们 没有 一 个 通用 的 
环境 标准 ， 强 化 学 习 的 相关 论文 很 难 进行 横向 比较 ， 不 同 任务 使 用 的 环境 定义 、reward 
的 函数 、 可 用 的 Action 都 会 有 区 别 ， 而 且 不 同 任务 的 难度 可 能 差异 非常 大 ， 比 如 围棋 就 
比 国 际 象 棋 难 很 多 。Gym 则 非常 好 地 解决 了 这 两 个 问题 ， 提 供 了 大 量 的 标准 化 的 环境 ， 
可 以 用 来 公平 地 横向 对 比 强 化 学 习 模 型 的 性 能 。Gym 的 用 户 可 以 上 传 模型 效果 和 训练 日 
志 到 OpenAI Gym Service 的 接口 ， 随 后 可 以 参与 某 个 任务 的 排名 ， 和 其 他 研究 者 比较 模 
型 的 效果 ， 并 分 圣 算 法 的 思路 给 其 他 研究 者 。 


OpenAI Gym 对 用 户 开发 模型 的 方式 没有 任何 限制 ， 它 跟 其 他 机 器 学 习 库 ， 例 如 
TensorFlow 和 Theano， 都 完全 兼容 。 用 户 可 以 使 用 Python 语言 和 任何 Python 的 Library 
编写 强化 学 习 模 型 的 Agent， 比 如 可 以 创建 一 些 简 单 的 经 验 规则 ， 或 者 使 用 State-Action 
一 一 对 应 的 策略 表 ， 当 然 也 可 以 使 用 深度 神经 网 络 模型 来 做 训练 模型 。 


在 Gym 中 ， 有 两 个 核心 的 概念 ,一 个 是 Environment， 指 我 们 的 任务 或 者 问题 ， 另 一 
个 就 是 Agent， 即 我 们 编写 的 策略 或 算法 。Agent 会 将 执行 的 Action 传 给 Environment, 
Environment 接受 某 个 Action 后 ， 再 将 结果 Observation ( 即 环境 状态 ) 和 Reward 返回 给 
Agent. Gym 中 提供 了 完整 的 Environment 的 接口 , 而 Agent 则 是 完全 由 用 户 编写 。 目前 ， 
Gym 一 共 包含 了 几 个 大 类 的 环境 , 分 别 是 Algorithmic ( 算法 )、Atari 游戏 (使 用 了 Arcade 
Learning Environment )、Board Games ( 棋牌 类 游戏 ， 其 中 国 棋 包含 了 9x9 和 19x19 两 种 
规模 ， 目 前 使 用 的 对 抗 程序 为 Pachi )、Box2D (二 维 的 物理 引擎 )、Classic Control ( 经 典 
的 控制 类 问题 )、MuJoCo ( 男 一 个 高 效 的 物理 引擎 ， 可 以 实现 非常 细节 的 物理 模拟 ,包括 
碰撞 ,可 以 用 来 控制 2D 或 者 3D 的 机 器 人 执行 一 些 任务 操作 ), 以 及 Toy Tex 文本 类 型 ) 
的 任务 。 其 中 某 些 任务 环境 需要 额外 安装 一 些 依 赖 库 或 者 程序 ， 我 们 可 以 执行 full install 
来 安装 全 部 环境 的 依赖 程序 。 


Gym 中 环境 的 接口 是 Env 类 , 其 中 有 几 个 重要 的 方法 。 使 用 env=gym.make('Copy-v0') 
创建 某 个 任务 的 环境 ; 使 用 env.reset() 初 始 化 环境 ， 并 返回 初始 的 observation, Bl state; 
使 用 env.step(action) 在 当前 状态 下 执行 一 步 Action, 并 返回 observation, reward, done ( 完 
成 标记 )、info( 调试 信息 ， 但 一 般 不 应 让 Agent 使 用 该 信息 ); 使 用 envrender() 方 法 可 以 
演 染 出 一 帧 的 任务 图 像 ， 很 多 任务 的 observation 就 是 一 帧 图 像 ， 此 时 Agent 直接 从 图 像 
像素 中 学 习 信息 和 策略 。 


下 面 我 们 就 以 Gym 中 的 CartPole 环境 作为 具体 例子 。CartPole 任务 最 早 由 论文 
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Neuronlike Adaptive Elements That Can Solve Difficult Learning Control Problem 提出 ， 
是 一 个 经 典 的 可 用 强化 学 习 来 解决 的 控制 问题 。 如 图 8-8 所 示 ，CartPole 的 环境 中 有 一 辆 
小 车 , 在 一 个 一 维 的 无 阻力 轨道 上 行动 , 在 车 上 绑 着 一 个 连接 不 太 结 实 的 杆 ,这 个 杆 会 左 
右 摇晃 。 我 们 的 环境 信息 observation 并 不 是 图 像 像素 ， 而 只 是 一 个 有 4 个 值 的 数组 ， 包 
含 了 环境 中 的 各 种 信息 ,比如 小 车 人 位置、 速度、 杆 的 角度 、 速 度 等 。 我 们 并 不 需要 知道 每 
个 数值 对 应 的 具体 物理 含义 , 因为 我 们 不 是 要 根据 这 些 数 值 自己 编写 逻辑 控制 小 车 , 而 是 
设计 一 个 策略 网 络 让 它 自 己 从 这 些 数值 中 学 习 到 环境 信息 , 并 制定 最 佳 策 略 。 我 们 可 以 采 
取 的 Action 非常 简单 , 给 小 车 施加 一 个 正 向 的 力 或 者 负 向 的 力 。 我们 有 一 个 Action Space 
的 概念 ， 即 Action 的 离散 数值 空间 ， 比 如 在 CartPole 里 Action Space Wiz Discrete(2)， | 
即 只 有 0 或 1, 其 他 复杂 一 点 的 游戏 可 能 有 更 多 可 以 选择 的 值 。 我 们 并 不 需要 知道 这 里 的 
数值 会 具体 对 应 哪个 Action， 只 要 模型 可 以 学 习 到 采取 这 个 Action 之 后 将 会 市 来 的 影响 
就 可 以 , 因此 Action 都 只 是 一 个 编码 。CartPole 的 任务 目标 很 简单 ， 就 是 尽 可 能 地 保持 杆 
竖 直 不 倾倒 ， 当 小 车 偏离 中 心 超过 2.4 个 单位 的 距离 ， 或 者 杆 的 倾角 超过 15 度 时 ， 我 们 
的 任务 宣告 失败 ， 并 目 动 结束 。 在 每 坚持 一 步 后 ， 我 们 会 获得 +1 的 reward， 我 们 只 需要 
坚持 尽量 长 的 时 间 不 导致 任务 失败 即 可 。 任 务 的 Reward (HE, WEA Action, RBA 
致 任务 结束 ， 都 可 以 获得 +1 的 Reward。 但 是 我 们 的 模型 必须 有 远见 ， 要 可 以 考虑 到 长 远 
的 利益 ， 而 不 只 是 学 习 到 当前 的 Reward. 


ce ee, SEE 


8-8 CartPole 环境 中 包含 一 个 可 以 控制 移动 方向 的 小 车 和 不 稳 的 杆 


当 我 们 使 用 envreset() 方 法 后 ,就 可 以 初始 化 环境 ,并 获取 到 环境 的 第 一 个 Observation。 
此 后 ， 根 据 Observation 预测 出 应 该 采取 的 Action， 并 使 用 env.step(action) 在 环境 中 执行 
Action， 这 时 会 返回 Observation ( 在 CartPole 中 是 4 维 的 抽象 的 特征 , 在 其 他 任务 中 可 能 
是 图 像 像素 )、reward ( 当前 这 步 Action 获得 的 即时 奖励 )、done ( 任务 是 否 结束 的 标记 ， 
在 CartPole 中 是 杆 倾倒 或 者 小 车 偏离 中 心太 远 ， 其 他 游戏 中 可 能 是 被 敌人 击 中 。 如 果 为 
True, MZ reset 任务 ) 和 info ( 额外 的 诊断 信息 ， 比 如 标识 了 游戏 中 一 些 随机 事件 的 概 
率 , 但 是 不 应 该 用 来 训练 Agent )。 这 样 我 们 就 进入 Action-Observation 的 循环 ,执行 Action， 
获得 Observation ， 再 执行 Action， 如 此 往复 直到 任务 结束 ， 并 期 望 在 结束 时 次 得 尽 可 能 
高 的 奖励 。 我 们 可 执行 的 Action 在 CartPole 中 是 离散 的 数值 空间 ， 即 有 限 的 几 种 可 能 ， 
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在 别 的 任务 中 可 能 是 连续 的 数值 , 例如 在 赛车 游戏 任务 中 , 我 们 执行 的 动作 是 朝 某 个 方向 
移动 ， 这 样 我 们 就 有 了 0~360 度 的 连续 数值 空间 可 以 选择 。 同 时 ， 我 们 的 环境 名 称 后 面 
都 带 有 版 本 号 ,比如 V0、V1 等 。 当 环境 发 生 更 新 或 者 变化 时 , 我 们 不 会 修改 之 前 的 环境 ， 

而 是 创建 新 的 版 本 ， 这 样 可 以 让 Agent 的 性 能 被 公平 的 比较 。 同 时 ， 我 们 可 以 调用 
env.monitor 方法 ， 对 模型 的 训练 过 程 进行 监控 和 记录 ， 这 样 之 后 我 们 就 可 以 方便 地 使 用 
gym.upload 将 训练 日 志 上 传 到 gym service 进行 展示 ， 并 与 他 人 的 算法 进行 比较 。 一 般 来 
说 ,对 比较 简单 的 问题 ,我 们 的 评测 标准 是 需要 多 少 步 训练 就 可 以 稳定 地 达到 理想 的 分 数 ， 
并 希望 需要 的 训练 步 数 越 少 越 好 ;对 于 比较 复杂 的 问题 ,我们 并 不 知道 理想 的 分 数 是 多 少 ， 
因此 一 般 是 希望 获得 的 分 数 越 高 越 好 。 用 户 可 以 上 传 算法 到 gym 并 让 同行 审议 ， 其 中 如 
果 提 出 非常 有 效 的 新 算法 、 新 技巧 , 并 且 能 被 其 他 研究 者 复 现 , 那 对 相关 领域 的 研究 会 有 
很 大 价值 。 


下 面 束 使 用 TensorFlow 创建 一 个 基于 策略 网 络 的 Agent 来 解决 CartPole 问题 。 我 们 
先 安 装 OpenAl Gym。 本 节 代 码 主 要 来 自 DeepRL-Agents™ 的 开源 实现 。 


pip install gym 


接着 , 载 入 NumPy, TensorFlow 和 gym. 这 里 用 gym.make('CartPole-v0') 创 建 CartPole 
问题 的 环境 envo 


import numpy as np 

import tensorflow as tf 
import gym 

env = gym.make('CartPole-v@' ) 


先 测试 在 CartPole 环境 中 使 用 随机 Action 的 表现 ,作为 接 下 来 对 比 的 baseline。 首 先 ， 
我 们 使 用 env.reset() 初 始 化 环境 ,然后 进行 10 次 随机 试验 ,这 里 调用 env.render() 将 CartPole 
问题 的 图 像 演 染 出 来 。 使 用 np.random.randint(0,2) 产 生 随 机 的 Action， 然 后 用 env.step() 
执行 随机 的 Action， 并 获取 返回 的 observation 、reward 和 done。 如 果 done 标记 为 True， 
则 代表 这 次 试验 结束 ， 即 倾角 超过 15 度 或 者 偏离 中 心 过 远 导 致 任务 失败 。 在 一 次 试验 结 
束 后， 我 们 展示 这 次 试验 累计 的 奖励 reward sum 并 重启 环境 。 


env.reset() 
random_episodes = © | 
”reward sum = 6 


while random_episodes < 10: 
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env.render() 
observation, reward, done, _ = env.step(np.random.randint(Q, 2) ) 
reward sum += reward 
if done: 
random_episodes += 1 
print("Reward for this episode was:",reward_sum) 
reward sum = 6 


env.reset() 


可 以 看 到 随机 策略 获得 的 奖励 总 值 差 不 多 在 10~40 ZE, 均值 应 该 在 20~30, 这 将 作 
为 接 下 来 用 来 对 比 的 基准 。 我 们 将 任务 完成 的 目标 设 定 为 拿 到 200 的 Reward, HA 
过 尽量 少 次 数 的 试验 来 完成 这 个 目标 。 


望 通 


Reward for this episode was: 12. 
Reward for this episode was: 17. 
Reward for this episode was: 20. 
Reward for this episode was: 44. 
Reward for this episode was: 28. 
Reward for this episode was: 19. 
Reward for this episode was: 13. 
Reward for this episode was: 30. 


Reward for this episode was: 20. 


OP OO Oe OHO OP Ouse ® 


Reward for this episode was: 26.1 


我 们 的 策略 网 络 使 用 简单 的 带 有 一 个 隐 含 层 的 MLP。 先 设置 网 络 的 各 个 超 参数 ， 这 
里 隐 含 节点 数 HY 50, batch size 设 为 25， 学 习 速 率 learning rate 为 0.1 ， 环 境 信息 
observation 的 维度 DD 为 4，gamma 即 Reward 的 discount 比例 设 为 0.99。 在 估算 Action 的 
期 望 价值 ( 即 估 算 样 本 的 学 习 目 标 ) 时 会 考虑 Delayed Reward, SHIA Action 之 后 获 
得 的 所 有 Reward 做 discount 并 累加 起 来 ， 这 样 可 以 让 模型 学 习 到 未 来 可 能 出 现 的 次 在 
Reward. 注意 , 一 般 discount 比例 要 小 于 1, 防止 Reward 被 无 损耗 地 不 断 累 加 导致 发 散 ， 
这 样 也 可 以 区 分 当前 Reward 和 未 来 Reward 的 价值 ( 当前 Action 直接 市 来 的 Reward 不 
需要 discount， 而 未 来 的 Reward 因 存 在 不 确定 性 所 以 需要 discount )。 


H = 50 
batch_size = 25 
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learning_rate = 1e-1 
D=4 


gamma = 0.99 


下 面 定义 策略 网 络 的 具体 结构 。 这 个 网 络 将 接受 observations 作为 输入 信息 ， 最 后 输 
出 一 个 概率 值 用 以 选择 Action ( 我们 只 有 两 个 Action, 向 左 施加 力 或 者 向 右 eel ae 
可 以 通过 一 个 概率 值 决定 )。 我 们 创建 输入 信息 observations 的 placeholder， 其 维度 为 D。 
然后 使 用 tf.contrib.layers.xavier_initializer 初始 化 算法 创建 隐 含 层 的 权重 W1, 其 维度 为 [D， 
H]。 接 着 用 timatmul 将 环境 信息 observation FEE W1 由 使 用 ReLU 激活 函数 处 理 得 到 隐 
含 层 输出 layerl1， 这 里 注意 我 们 并 不 需要 加 偏 置 。 同 样 用 xavier_initializer 算法 创建 最 后 
Sigmoid 输出 层 的 权重 W2， 将 隐 合 层 输出 layerl RA W2 后 ， 使 用 Sigmoid 激活 函数 处 

理 得 到 最 后 的 输出 概率 。 


observations = tf.placeholder(tf.float32, [None,D] , name="input x") 
= tf.get_variable("W1", shape=[D, H], 
initializer=tf.contrib.layers.xavier_initializer()) 
layeri = tf.nn.relu(tf.matmul(observations,W1) ) 
= tf.get_variable("W2", shape=[H, 1], 
initializer=tf.contrib.layers.xavier_initializer()) 
score = tf.matmul(layer1,W2) 


probability = tf.nn.sigmoid(score) 


ix RA ae AY Adam 算法 。 我 们 分 别 设 置 两 层 神经 网 络 参 数 的 梯度 的 
W1Grad 和 W2Grad， 并 使 用 adam.apply_ gradients 定义 我 们 更 新 模型 参数 
的 操作 updateGrads。 之 后 计算 参数 的 梯度 ， 当 积累 到 一 定 样 本 量 的 梯度 , 就 传人 入 WlGrad 
和 W2Grad， 并 执行 updateGrads 更 新 模型 参数 。 这 里 注意 ， 深 度 强 化 学 习 的 训练 和 其 他 
神经 网 络 一 样 ， 也 使 用 batch training 的 方式 。 我 们 不 逐个 样本 地 更 新 参数 ， 而 是 累计 一 
个 batch_size 的 样本 的 梯度 再 更 新 参数 ,防止 单一 样本 随机 扰动 的 噪声 对 模型 市 来 不 恨 影 
啊 。 


placeholder 





adam = tf.train.AdamOptimizer (learning rate=learning rate) 
WiGrad = tf.placeholder(tf.float32,name="batch_gradi" ) 
W2Grad = tf.placeholder(tf.float32,name="“batch_grad2") 
batchGrad = [WiGrad,W2Grad] 

updateGrads = adam.apply_gradients(zip(batchGrad,tvars) ) 
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下 面 定 义 函 数 discount rewards ， 用 来 估算 每 一 个 Action 对 应 的 次 在 价值 discount r。 
因为 CartPole 问题 中 每 次 获得 的 Reward 都 和 前 面 的 Action 有 关 ， 属 于 delayed reward, 
因此 需要 比较 精准 地 衡量 每 一 个 Action 实际 市 来 的 价值 时 ， 不 能 只 看 当前 这 一 步 的 


Reward, ,而 要 考虑 后 面 的 Delayed Reward。 那 些 能 让 Pole 长 时 间 保 持 在 空中 竖 直 的 Action, 


应 该 拥有 较 大 的 期 望 价值 ， 而 那些 最 终 导 致 Pole 倾倒 的 Action， 则 应 该 拥有 较 小 的 期 望 
价值 。 我 们 判断 越 徘 后 的 Action 的 期 望 价值 越 小 ， 因 为 它们 更 可 能 是 导致 Pole 倾倒 的 原 
因 ， 并 且 判 断 越 靠 前 的 Action 的 期 望 价值 越 大 ， 因 为 它们 长 时 间 保 持 了 Pole NEE, A 
倾倒 的 关系 没有 那么 大 。 我 们 倒 推 整个 过 程 ， 从 最 后 一 个 Action 开始 计算 所 有 Action 应 
该 对 应 的 期 望 价值 .输入 数据 r 为 每 一 个 Action 实际 获得 的 Reward, 在 CartPole 问题 中 ， 
除了 最 后 结束 时 的 Action 为 0， 其 余 均 为 1。 下 面 介 绍 具 体 的 计算 方法 ， 我 们 定义 每 个 
Action 除 直接 获得 的 Reward 外 的 次 在 价值 为 running add, running add © Vaal ATI 
的 ， 并 且 需 要 经 过 discount 衰减 。 而 每 一 个 Action 的 洪 在 价值 ， 即 为 后 一 个 Action WE 
在 价值 乘 以 衰减 系数 gamma 再 加 上 它 直 接 获得 的 reward， 即 running add*gamma+tr[t]。 
这 样 从 最 后 一 个 Action 开始 不 断 疝 前 累计 计算 ， 即 可 得 到 全 部 Action 的 次 在 价值 。 这 种 
对 洪 在 价值 的 估算 方法 符合 我 们 的 期 望 ， 越 靠 前 的 Action 潜在 价值 越 大 。 
def discount_rewards(r): 
discounted_r = np.zeros_like(r) 
- running add = 6 
for t in reversed(range(r.size)): 
running add = running add * gamma + r[t] 
discounted_r[t] = running_add 


return discounted_r 


我 们 定义 人 工 设置 的 虚拟 label ( 下 文 会 讲解 其 生成 原理 ， 其 取 值 为 0 或 1) 的 


placeholder 一 一 input y， 以 及 每 个 Action 的 潜在 价值 的 placeholder 一 一 advangtages。 这 里 
loglik 的 定义 略 显 复杂 ， 我 们 来 看 一 下 loglik 到 底 代表 什么 。Action 取 值 为 1 的 概率 为 
probability ( 即 策 略 网 络 输 出 的 概率 )，Action 取 值 为 0 的 概率 为 1-probability，label 取 值 
与 Action 相反, 即 1label=1-Action。 当 Action 为 1 时 ,label 为 0, 此 时 1loglik=tf.log(probability)， 
Action 取 值 为 1 的 概率 的 对 数 ; 当 Action 为 0 时 ,label 为 1, 此 时 loglik=tf.log(1-probability)， 
BN Action 取 值 为 0 的 概率 的 对 数 。 所 以 , loglik 其 实 就 是 当前 Action 对 应 的 概率 的 对 数 ， 
我 们 将 loglik 与 潜在 价值 advantages 相 乘 ， 并 取 人 负数 作为 损失 ， 即 优化 目标 。 我 们 使 用 优 
化 器 优化 时 ,会 让 能 获得 较 多 advantages 的 Action 的 概率 变 大 ,并 让 能 获得 较 少 advantages 
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的 Action 的 概率 变 小 ， 这 样 能 让 损失 变 小 。 通 过 不 断 的 训练 ， 我 们 便 能 持续 加 大 能 获得 
较 多 advantages 的 Action 的 概率 ， 即 学 习 到 一 个 能 获得 更 多 潜在 价值 的 策略 。 最 后 ， 使 
用 给 trainable variables() 获 取 策略 网 络 中 全 部 可 训练 的 参数 tvars， 并 使 用 tf.gradients 求解 
模型 参数 关于 loss 的 梯度 。 


input y = tf.placeholder(tf.float32,[None,1], name="input_y”) 
advantages = tf.placeholder(tf.float32,name="reward signal") 
loglik = tf.log(input_y*(input_y - probability) + \ 

(1 - input_y)*(input_y + probability) ) 


loss = -tf.reduce mean(loglik * advantages) 


tvars = tf.trainable variables() 


newGrads = tf.gradients(loss,tvars) 


在 正式 进入 训练 过 程 前 ， 我 们 先 定义 一 些 参 数 ，xs 为 环境 信息 observation 的 列表 ， 
ys 为 我 们 定义 的 label 的 列表 ，drs 为 我 们 记录 的 每 一 个 Action 的 Reward。 我 们 定义 累计 
的 Reward 为 reward sum, 总 试验 次 数 total episodes 为 10000, 直 到 达到 获取 200 的 Reward 
才 停 止 训练 。 


xs,ys,drs = [],[],[] 
reward sum = @ 
episode number = 1 


total_episodes = 10000 


我 们 创建 默认 的 Session， 初 始 化 全 部 参数 ， 并 在 一 开始 将 render 的 标志 关闭 。 因 为 
render 会 带 来 比较 大 的 延迟 ， 所 以 一 开始 不 太 成 熟 的 模型 还 没 必 要 去 观察 。 先 初始 化 
CartPole 的 环境 并 获得 初始 状态 。 然 后 使 用 sess.run 执行 tvars 获取 所 有 模型 参数 , 用 来 创 
建 储存 参数 梯度 的 缓冲 器 gradBuffer， 并 把 gardBuffer 全 部 初始 化 为 零 。 接 下 来 的 每 次 试 
验 中 ， 我 们 将 收集 参数 的 梯度 存储 到 gradBuffer 中 ， 直 到 完成 了 一 个 batch_size 的 试验 ， 
再 将 汇总 的 梯度 更 新 到 模型 参数 。 


with tf.Session() as sess: 
rendering = False 
init = tf.global_ variables initializer() 


sess.run(init) 
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observation = env.reset() 


gradBuffer = sess.run(tvars) 
for ix,grad in enumerate(gradBuffer) : 


gradBuffer[ix] = grad * @ 


下 面 进 入 试验 的 循环 , 最 大 循环 次 数 即 为 total episodes。 当 某 个 batch 的 平均 Reward 
达到 100 以 上 时 ， 即 Agent 表现 良好 时 ， 调 用 env.render() 对 试验 环境 进行 展示 。 先 使 用 
tfreshape 将 observation 变形 为 策略 网 络 输入 的 格式 ， 然 后 传 入 网 络 中 ， 使 用 sess.run 执 
ÍT probability 获得 网 络 输出 的 概率 tfprob, Ell Action 取 值 为 1 的 概率 。 接 下 来 我 们 在 (0， 
1 ) 间 随 机 抽样 ， 若 随机 值 小 于 tfprob， 则 令 Action 取 值 为 1， 否 则 令 Action 取 值 为 0， 
即 代 表 Action 取 值 为 1 的 概率 为 tfprob。 


while episode number <= total_episodes: 
if reward _sum/batch_size > 100 or rendering == True : 
env.render() 
rendering = True 


x = np.reshape(observation,[1,D]) 


tfprob = sess.run(probability, feed dict={observations: x}) 


action = 1 if np.random.uniform() < tfprob else @ 





然后 将 输入 的 环境 信息 observation 添加 到 列表 xs 中 。 这 里 我 们 制造 虚拟 的 label 
y， 它 取 值 与 Action 相反 ， 即 y=1-action ， 并 将 其 添加 a 到 列表 ys 中 。 然 后 使 用 env.step 执 
行 一 次 Action, 获取 observation, reward, done 和 info, 并 将 reward 累加 到 reward sum, 
同时 将 reward 添加 到 列表 drs 中 。 
xs.append(x) 
y= 1 - action 


ys.append(y) 


observation, reward, done, info = env.step(action) 


reward_sum += reward 
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drs.append(reward) 


当 done 为 True， 即 一 次 试验 结束 时 ， 将 episode_numer 加 1。 同 时 使 用 np.vstack 将 
几 个 列表 xs, ys, drs 中 的 元 素 纵向 堆 全 起来， 得 到 epx、epy 和 epr， 并 将 xs ys, drs 
清空 以 备 下 次 试验 使 用 。 这 里 注意 ,epx、epy、drs 即 为 一 次 试验 中 获得 的 所 有 observation, 
label, reward 的 列表 。 我 们 使 用 前 面 定 义 好 的 discount rewards 函数 计算 每 一 步 Action 的 
潜在 价值 , 并 进行 标准 化 ( 减 去 均值 再 除 以 标准 差 ), 得 到 一 个 零 均值 标准 差 为 1 的 分 布 。 
这 么 做 是 因为 discount reward 会 参与 到 模型 损失 的 计算 ， 而 分 布 稳定 的 discount rewad 
有 利于 训练 的 稳定 。 


if done: 
episode number += 1 
epx = np.vstack(xs) 
epy = np.vstack(ys) 
epr = np.vstack(drs) 
xs,ys,drs = [],[],[] 


discounted epr = discount_rewards(epr) 
discounted epr -= np.mean(discounted_epr) 


discounted_epr /= np.std(discounted_epr) 


我 们 将 epx、epy 和 discounted epr 输入 神经 网 络 ， 并 使 用 操作 newGrads 求解 梯度 。 
再 将 获得 的 梯度 累加 到 gradBuffer 中 去 。 


tGrad = sess.run(newGrads,feed dict={observations: epx, 
input_y: epy, advantages: discounted_epr}) 
for ix,grad in enumerate(tGrad): : 


gradBuffer[ix] += grad 


当 进 行 试 验 的 次 数 达 到 batch size BAL , gradBuffer HMAT SEBSHRE, 
因此 使 用 updateGrads 操作 将 gradBuffer 中 的 梯度 更 新 到 策略 网 络 的 模型 参数 中 ， 并 清空 
gradBuffer， 为 计算 下 一 个 batch 的 梯度 做 准备 。 这 里 注意 , 我 们 是 使 用 一 个 batch 的 梯度 
更 新 参数 ， 但 是 每 一 个 梯度 是 使 用 一 次 试验 中 全 部 样本 (一 个 Action 对 应 一 个 样本 ) 于 
算出 来 的 ， 因 此 一 个 batch 中 的 样本 数 实际 上 是 25 ( batch_size ) 次 试验 的 样本 数 之 和 。 
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同时 ,我 们 展示 当前 的 试验 次 数 episode_number, 和 batch 内 每 次 试验 平均 获得 的 reward. 
当 我 们 batch 内 每 次 试验 的 平均 reward 大 于 200 时 ， 我 们 的 策略 网 络 就 成 功 完成 了 任务 ， 
并 将 终止 循环 。 如 果 没 有 达到 目标 , 则 清空 reward_sum ,重新 累计 下 一 个 batch 的 总 reward。 
同时 ， 在 每 次 试验 结束 后 ， 将 任务 环境 ev 重 置 ， 方 便 下 一 次 试验 。 


if episode number % batch_size == 
sess.run(updateGrads, feed _dict={WiGrad: gradBuffer[@], 
W2Grad:gradBuffer[1]}) 
for ix,grad in enumerate(gradBuffer) : 


gradBuffer[ix] = grad * @ 


print('Average reward for episode %d : %f.' % \ 


(episode number,reward_sum/batch_size) ) 


if reward sum/batch_size > 200: 
print("Task solved in",episode_number, ‘episodes!') 


break 
reward sum = 6 


observation = env.reset() 


下 面 是 我 们 模型 的 训练 日 志 , 可 以 看 到 策略 网 络 在 仅 经 历 了 200 次 试验 , 即 8 个 batch 
的 训练 和 参数 更 新 后 ， 就 实现 了 我 们 的 目标 ， 达 到 了 batch 内 平均 230 的 reward, 顺利 完 
成 预 设 的 目标 。 有 兴趣 的 读者 可 以 尝试 修改 策略 网 络 的 结构 、 隐 含 万 点数 、batch size, 
学 习 速率 等 参数 来 尝试 优化 策略 网 络 的 训练 ， 加 快 其 学 习 到 好 策略 的 速度 。 


Average reward for episode 25 : 19. 200009. 
Average reward for episode 50 : 30.680000. 
Average reward for episode 75 : 41.360000. 
Average reward for episode 100 : 52.160000. 
Average reward for episode 125 : 70.680000. 
Average reward for episode 150 : 84.520000. 
Average reward for episode 175 : 153.320000. 
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Average reward for episode 200 : 230.400000. 


Task solved in 200 episodes! 


8.3 TensorFlow 实现 估 值 网 络 


在 强化 学 习 中 ， 除 了 Policy Based 直接 选择 Action 的 方法 ， 还 有 一 种 学 习 Action 对 
应 的 期 望 价值 ( Expected Utility) 的 方法 ， 称 为 Q-Leaming”。Q-Learning 最 早 于 1989 年 
由 Watkins 提出 ， 其 收敛 性 于 1992 年 由 Watkins 和 Dayan 共同 证 明 。Q-Leaming 学 习 中 
的 期 望 价值 指 从 当前 的 这 一 步 到 所 有 后 续 步 又 , 总 共 可 以 期 望 获 取 的 最 大 价值 ( BY Q 值 ， 
也 可 称 为 Value )。 有 了 这 个 Action=Q 的 函数 ， 我 们 的 最 佳 策略 就 是 在 每 一 个 state F, 
选择 Q 值 最 高 的 Action。 和 Policy Based 方法 一 样 ，Q-Leaming 不 依赖 环境 模型 。 在 有 
限 马 尔 科 夫 决策 过 程 (Markov Decision Process) H, Q-Learning 被 证 明 最 终 可 以 找到 最 
优 的 策略 。 


Q-Learning 的 目标 是 求解 函数 Q(sw at)， 即 根据 当前 环境 状态 ,估算 Action 的 期 望 价 
值 。 Q-Learning 训练 模型 的 基本 思路 也 非常 简单 , 它 以 ( 状态、 行为、 奖励 、 下 一 个 状态 ) 
构成 的 元 组 (si, at rsst+ti) 为 样本 进行 训练 ,其 中 s, 为 当前 的 状态 ,a 为 当前 状态 下 执行 
的 Action, ra; 为 在 执行 Action 后 获得 的 奖励 ，sal 为 下 一 个 状态 。 其 中 特征 是 (saa), M 
学 习 目 标 ( 即 期 望 价 值 ) 则 是 neji ty: max, Q (sty1,9)， 这 个 学 习 目 标 即 是 当前 Action 
获得 的 Reward 加 上 下 一 步 可 获得 的 最 大 期 望 价值 。 学 习 目 标 中 包含 了 Q-Learning 的 函数 
本 身 ， 所 以 这 其 中 使 用 了 递归 求解 的 思想 。 下 一 步 可 获得 的 最 大 期 望 价值 被 乘 以 一 个 y， 
BN Sek AL discount factor， 这 个 参数 决定 了 未 来 奖励 在 学 习 中 的 重要 性 。 如 果 discount 
factor 为 0， 那 么 模型 将 学 习 不 到 任何 未 来 奖励 的 信息 ， 将 会 变 得 短视 ， 只 关注 当前 的 利 
益 ; 如 果 discount factor 大 于 等 于 1， 那 算法 很 可 能 无 法 收敛 ， 期 望 价值 将 被 不 断 累加 并 
且 没 有 衰减 ( 即 discount )， 这 样 期 望 价值 很 可 能 会 发 散 。 因 此 ，discount factor 一 般 会 被 
设 为 一 个 比 1 稍 小 的 值 。 我 们 可 以 把 整个 Q-Learning 学 习 的 过 程 写成 下 面 这 个 式 子 : 

Qnew (Se ae) — (1 — a) + Qora (Ses ae) + oa: (Tera + y maxQGttuo) 

简单 描述 这 个 公式 是 , 将 旧 的 Q-Learning 水 数 Q,1g(si, a), 向 着 学 习 目 标 ( 当前 获得 
的 Reward 加 上 下 一 步 可 获得 的 最 大 期 于 价值 ) 按 一 个 较 小 的 学 习 速 率 a 学 习 ， 得 到 新 的 
Q-Learning 函数 Qnew(st at)e 其 中 学 习 速 率 决 定 了 我 们 使 用 新 获取 的 样本 信息 覆盖 之 前 掌 
握 到 的 信息 的 比率 , 通常 设 为 一 个 比较 小 的 值 , 可 以 保证 学 习 过 程 的 稳定 , 同时 确保 最 后 
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的 收敛 性 。 FAIRY, Q-Learning 需要 一 个 初始 值 Q0。， 而 比较 高 的 初始 值 可 以 鼓励 模型 多 进行 
探索 o 


我 们 用 来 学 习 Q-Learning 的 模型 可 以 是 神经 网 络 ， 这 样 得 到 的 模型 即 是 估 值 网 络 。 
如 果 其 中 的 神经 网 络 比较 深 ， 那 就 是 DQN。DQN 这 一 说 法 ， 是 由 Google DeepMind 发 
表 于 Nature 的 论文 re cantal through deep reinforcement learning 提出 的 ， 在 
这 篇 论文 中 DeepMind 使 用 DQN 创建 了 达到 人 类 专家 水 平 的 可 以 玩 Atari 2600 系列 游戏 
的 Agent。 相 比 于 早期 Q-Learning 使 用 的 简单 模型 ，DeepMind 的 DON 有 了 很 多 方面 的 
改进 。 下 面 我 们 将 逐一 介绍 目前 state of the art 的 DON 中 的 一 些 Tricko 


第 1 个 Trick， 我 们 需要 在 DQN 中 引入 卷 积 层 。 我 们 不 再 是 输入 一 些 数值 类 的 特征 
让 模型 学 习 ， 而 是 直接 让 模型 通过 Atari 这 类 游戏 的 视频 图 像 了 解 环境 信息 并 学 习 策 略 。 
这 样 就 必须 让 DON 能 理解 它 所 接收 到 的 图 像 ， 即 具有 一 定 的 图 像 识别 能 力 ， 因 此 我 们 融 
需要 用 到 前 几 章 提 到 的 卷 积 神经 网 络 。 卷 积 神经 网 络 的 具体 原理 前 面 几 章 讲解 过 , 它 利 用 
可 提取 空间 结构 信息 的 卷 积 层 来 抽取 特征 。 卷 积 层 可 以 提取 图 像 中 重要 目标 的 特征 并 传 给 
后 面 的 层 来 做 分 类 或 者 回归 , 比如 第 6 章 中 的 VGG Net 和 Inception Net. {2 DQN 不 同 ， 
它 使 用 卷 积 层 不 是 用 来 对 图 像 做 分 类 , 而 是 进行 强化 学 习 的 训练 , 其 目标 是 根据 环境 图 像 


输出 决策 。 通 常 在 设计 DQN 时 ， 如 果 输 入 是 图 像 ， 那 么 最 前 面 几 层 一 般 部 会 设置 成 卷 积 


E, WE 8-9 所 示 。 本 市 将 要 实现 的 DON 的 前 4 层 也 都 是 卷 积 层 。 
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图 8-9 Deep Q-Network 中 的 多 层 卷 积 结构 
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第 2 个 Trick Æ Experience Replay。 因 为 深度 学 习 需 要 大 量 的 样本 ， 所 以 传统 的 
Q-Learning HY online update 的 方法 ( 未 一 对 新 样本 学 习 的 方式 ) 可 能 不 太 适 合 DQN。 因 
此 ,我 们 需要 增 大 样本 量 , 并 且 像 VGGNet 或 Inception Net 那样 进行 多 个 epoch 的 训练 ， 
对 图 像 进行 反 复 利 用 。 我 们 引入 一 种 被 称 为 Experience Replay 的 技术 ， 它 的 主要 思想 就 
是 储存 Agent 的 Experience ( 即 样本 )， 并 且 每 次 训练 时 随机 抽取 一 部 分 样本 供给 网 络 学 
习 。 这 样 我 们 能 比较 稳定 地 完成 学 习 任 务 , 避免 只 短视 地 学 习 到 最 新 接触 到 的 样本 , 而 是 
综合 地 、 反复 地 利用 过 往 的 大 量 样 本 进行 学 习 。 我 们 会 创建 一 个 用 来 储存 Experience 的 组 
存 buffer， 它 里 面 可 以 储存 一 定量 的 比较 新 的 样本 。 当 容量 满 了 以 后 ， 会 用 新 样本 替换 最 
旧 的 样本 , 这 可 以 保证 大 部 分 样本 有 相近 的 概率 被 抽 到 ， 如 果 不 替 换 旧 的 , 那么 从 一 开始 
就 获得 的 旧 样 本 , 在 整个 训练 过 程 中 被 抽 到 的 概率 会 比 新 样本 高 很 多 。 每 次 需要 训练 样本 
时 ， 就 直接 从 buffer 中 随机 抽取 一 定量 的 样本 给 DON 训练 ， 这 样 可 以 保持 对 样本 较 高 的 
利用 率 ， 同 时 可 以 让 模型 学 习 到 比较 新 的 一 批 样本 。 


第 3 个 Trick， 我们 可 以 再 使 用 第 二 个 DON 网 络 来 辅助 训练 ， 这 个 辅助 网 络 一 般 称 
为 target DQN ， 它 的 意义 是 辅助 我 们 计算 目标 Q 值 ， 即 提供 学 习 目 标 公式 里 的 
maxa Q(st+1,9)。 我 们 之 所 以 要 拆 分 为 两 个 网 络 ， 一 个 用 来 制造 学 习 目 标 , 一 个 用 来 进行 
实际 训练 ,原因 很 简单 ,是 为 了 让 Q-Learning 训练 的 目标 保持 平稳 。 强 化 学 习 及 Q-Learning 
不 像 普通 的 监督 学 习 , 它 的 学 习 目 标 每 次 都 是 变化 的 , 因为 学 习 目 标的 一 部 分 是 模型 本 身 
输出 的 。 每 次 更 新 模型 参数 都 会 导致 我 们 的 学 习 目标 发 生变 化 , 如 果 更 新 很 频繁 、 幅 度 很 
K, 我 们 的 训练 过 程 就 会 非常 不 稳定 并 且 失 控 。 这 样 DQN 的 训练 就 会 陷入 目标 Q 值 与 预 
W Q 值 的 反馈 循环 中 (陷入 震荡 发 散 ， 难 以 收敛 )。 为 了 降低 这 种 影响 , 需要 让 目标 Q 值 
尽量 平稳 ， 因 此 需要 一 个 比较 稳定 的 target DON 辅助 网 络 计算 目标 Q 值 。 我 们 让 target 
DQN 进行 低频 率 或 者 缓慢 的 学 习 ， 这 样 它 输 出 的 目标 Q 值 的 波动 也 会 比较 小 ， 可 以 减 小 
对 训练 过 程 的 影响 。 


第 4 个 Trick， 如 果 在 分 拆 出 target DON 的 方法 上 更 进一步 ， 那 就 是 Double DQN。 
DeepMind 的 研究 者 在 论文 Deep Reinforcement Learning with Double Q-Learning 中 发 现 ， 
传统 的 DON 通常 会 高 估 Action 的 Q 值 。 如 果 这 种 高 估 不 是 均匀 的 ， 可 能 会 导致 本 来 次 
优 的 某 个 Action 总 是 被 高 估 而 超过 了 最 优 的 Action， 那 将 给 训练 和 选择 Action 带 来 很 大 
的 麻烦 ， 我们 可 能 永远 都 发 现 了 不 了 最 优 的 Actions ALE, 在 DeepMind 这 篇 论文 中 提出 
了 可 以 在 DON 中 也 使 用 Double Q-Learning 的 方法 。 我 们 之 前 是 让 target DON 完全 负责 
生成 目标 Q 值 ， 即 先 产 生 Q (se41,4)， 青 通过 max 选 择 最 大 的 Q 值 。Double DQN 则 是 修 
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改 了 第 二 步 ， 不 是 直接 选择 target DON 上 最 大 的 Q 值 ， 而 是 在 我 们 的 主 DON 上 通过 其 
最 大 Q 值 选择 Action， 有 再 去 获取 这 个 Action 在 target DQN 上 的 Q 值 。 这 样 我 们 的 主 网 
络 负责 选择 Action， 而 这 个 被 选 定 的 Action 的 Q 值 则 由 target DON 生成 。 被 选择 的 Q 
值 ,不 一 定 总 是 最 大 的 Q 值 , 这 样 就 避免 了 被 高 估 的 次 优 Action 总 是 超过 最 优 的 Action ， 
导致 我 们 发 现 不 了 真正 最 好 的 Action。 我 们 的 学 习 目标 因此 可 以 写成 下 面 的 式 子 。 


Target =i, Y` Qrarget Ce argmaxg(Qmain (Sto a))) 


第 5 个 Trick 是 Dueling DQN, th DQN 的 一 个 重大 改进 ,在 Google 的 论文 Dueling 
Network Architectures for Deep Reinforcement Learning 中 被 首次 提出 。Dueling DQN 将 
Q 值 的 函数 Q(si, at) 拆 分 为 两 部 分 , 一 部 分 是 静态 的 环境 状态 本 身 具 有 的 价值 V(se), 称 为 
Value; 另 一 部 分 是 动态 的 通过 选择 某 个 Action 额外 带 来 的 价值 4(at)， 称 为 Advantage。 
我 们 的 Q 值 将 由 这 两 部 分 组 合 而 成 ， 可 以 写成 下 面 这 个 公式 。 

Q(se,ar) = V(s) + Ala) 

”Dueling 的 目标 葡 是 让 网 络 可 以 分 别 计算 环境 本 号 的 Value 和 选择 Action 市 来 的 
Advantage, 这 里 的 Advantage 是 某 个 Action 与 其 他 Action 的 比较 ， 因 此 我 们 将 它 设 计 为 
SEWER. ME 8-10 所 示 ， 上 面 那 部 分 是 传统 的 DQN 网 络 ， 下 面 的 束 是 Dueling DQN 
了 ， 在 网 络 的 最 后 部 分 ， 不 再 是 直接 输出 Action 数量 ( 假定 为 n) 的 Q 值 ， 而 是 输出 一 
个 Value 值 及 n 个 Advantage 值 ， 然 后 将 V 值 分 别 加 到 每 一 个 Advanatge 值 上 , 得 到 最 后 
的 结果 。 这 样 做 的 目的 是 让 DON 的 学 习 目 标 更 明确 ， 如 果 当 前 的 期 望 价值 主要 是 由 环境 
状态 决定 的 ， 那 么 Value 值 很 大 ， 而 所 有 Advantage 的 波动 都 不 大 ; 如 果 期 望 价值 主要 由 
Action 决定 ， 那 么 Value 值 很 小 ， 而 Advantage 波动 会 很 大 ， 分 解 这 两 个 部 分 会 让 我 们 的 
学 习 目 标 更 稳定 、 更 精确 ， 让 DON 对 环境 状态 的 估计 能 力 更 强 。 


下 面 我 们 就 实现 高 有 前 面 几 个 Trick 的 DON. 使 用 的 任务 环境 是 叫 作 GridWorld 的 导 
航 类 游戏 ， 如 图 8-11 所 示 。GridWorld 中 包含 一 个 hero( 实际 为 蓝 色 ， 这 里 以 白色 显示 ) 
4 个 goal ( 实际 为 绿色 , 这 里 以 浅 灰 表示 ) 和 2 个 fire( 实际 为 红色 , 这 里 以 深 灰 色 表 示 )。 
我 们 的 目标 就 是 控制 hero 移动 ， 每 次 向 上 、 下 、 左 、 右 等 方向 移动 一 步 ， 尽 可 能 多 地 触 
fi goal( 奖励 值 为 1 )， 同 时 避 开 fire( 奖励 值 为 -1 )。 游 戏 的 目标 是 在 限定 步 数 内 拿 到 最 
多 的 分 数 。 我 们 的 Agent 将 直接 通过 GridWorld 的 图 像 学 习 控制 hero 移动 的 最 优 策略 。 
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8-11 GridWorld 游戏 环境 示例 


下 面 开 始 创建 GridWorld 任务 的 环境 。 首 先是 载 入 各 种 依赖 的 库 , 这 次 需要 载 入 的 库 
相对 较 多 ， 其 中 itertools 可 以 方便 地 进行 迭代 操作 ，scipy.misc 和 matplotlib.pyplot 可 以 给 
图 。 同 时 因为 训练 时 间 较 长 ， 我 们 也 载 入 os 用 来 定期 储存 模型 文件 。 本 节 代 码 主要 来 自 
DeepRL-Agents 的 开源 实现 “。 


import numpy as np 

import random 

import itertools 

import scipy.misc 

import matplotlib.pyplot as plt 


import tensorflow as tf 


217 A 
ww ai bbt.com DODOODODDDD 





本 TensorFlow 实战 


import os 


%matplotlib inline 


先是 创建 环境 内 物体 对 象 的 class， 环 境 物体 包括 以 下 几 个 属性 : coordinates (x,y 44 
i), size ( R5} ), intensity ( 亮度 值 )、channel (RGB 颜色 通道 )、reward ( 奖励 值 )， 以 
及 name ( 名称 )。 


class gameOb(): 
def _init__(self,coordinates,size, intensity, channel, reward, name): 

self.x = coordinates[@] 
self.y = coordinates[1] 
self.size = size 
self.intensity = intensity 
self.channel = channel 
self.reward = reward 


self.name = name 


然后 创建 GridWorld 环境 的 class, 其 初始 化 方法 只 需要 传 入 一 个 参数 , 即 环境 的 size. 
我 们 将 环境 的 长 和 宽 都 设 为 输入 的 size， 同 时 将 环境 的 Action Space 设 为 4， 并 初始 化 环 
境 的 物体 对 象 的 列表 。 调 用 self.reset() 方 法 重 置 整 个 环境 ， 得 到 初始 的 observation ( 即 
GridWorld 的 图 像 )， 并 使 用 plt.imshow 将 observation 展示 出 来 。 


Class gameEnv(): 
def _init (self, size): 
self.sizex = size 
self.sizeY = size 
self.actions ="4 
self.objects = [] 
ae self.reset() 


plt.imshow(a,interpolation="nearest” ) 


接 下 来 定义 环境 的 reset 方法 。 我 们 将 创建 所 有 GridWorld 中 的 物体 ， 包 括 1 个 hero 
( 用 户 控制 的 对 象 )、4 个 goal (reward 为 1 )、2 个 fire (reward 为 -1 )， 并 把 他 们 添加 到 物 
体 对 象 的 列表 self.objects。 创 建物 体 的 位 置 时 使 用 self newPosition() , 该 方法 会 随机 选择 
一 个 没有 被 占用 的 新 位 置 。 所 有 物体 的 size 和 intensity 均 为 1， 其 中 hero 的 channel 为 2 
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WE ), goal HY channel 为 攻 (绿色 ),fire 的 channel 为 0 红色 )。 最 后 我 们 使 用 self.renderEnv() 
将 GridWorld 的 图 像 绘制 出 来 ， 即 state. 


def reset(self): 
self.objects = [] 
hero = gameOb(self.newPosition(),1,1,2,None, ‘hero') 
self.objects.append(hero) 
goal = gameOb(self.newPosition(),1,1,1,1, ‘goal') 
self.objects.append(goal) 
hole = gameOb(self.newPosition(),1,1,0,-1,'fire') 
self .objects.append(hole) 
goal2 = gameOb(self.newPosition(),1,1,1,1, ‘goal’ ) 
self .objects.append(goal2) 
hole2 = gameOb(self.newPosition(),1,1,0,-1, 'fire') 
self.objects.append(hole2) 
goal3 = gameOb(self.newPosition(),1,1,1,1, ‘goal') 
self.objects.append(goal3) 
goal4 = gameOb(self.newPosition(),1,1,1,1, ‘goal’ ) 
self.objects.append(goal4) 
state = self.renderEnv() 
self.state = state 


return state 


这 里 我 们 实现 移动 大雄 角色 的 方法 ， 我 们 传 入 的 值 为 0、1、2、3 这 四 个 数字 ， 分 别 
代表 上 、 下 、 左 、 右 。 遂 数 根据 输入 来 操作 英雄 的 移动 ,但 如 果 移 动 该 方向 会 导致 英雄 出 
别 ， 则 不 会 进行 任何 移动 。 

def moveChar(self, direction): 

hero = self.objects[@] 
heroX = hero.x 


heroY = hero.y 


if direction == @ and hero.y >= 1: 
hero.y -= 1 

if direction == 1 and hero.y <= self.sizeyY-2: 
hero.y += 1 | 
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if direction == 2 and hero.x >= 1: 
hero.X -= 
if direction == 3 and hero.x <= self.sizexX-2: 


hero.x += 1 


self.objects[@] = hero 


然后 定义 刚才 提 到 的 newPosition 方法 ， 它 可 以 选择 一 个 跟 现 有 物体 不 冲突 的 位 置 。 
itertools.product 方法 可 以 得 到 几 个 变量 的 所 有 组 合 , 使 用 这 个 方法 创建 环境 size 允许 的 所 
有 位 置 的 集合 points， 并 获取 目前 所 有 物体 位 置 的 集合 currentPositions， 再 从 points 中 去 
掉 currentPositions, ， 剩 下 的 就 是 可 用 的 位 置 。 最 后 使 用 np.random.choice 随机 抽取 一 个 可 
用 位 置 并 返回 。 
def newPosition(self): 
iterables = [ range(self.sizeX), range(self.sizeY) | 
points = [] 
for t in itertools.product(*iterables): 
points.append(t) 
currentPositions = [] 
for objectA in self.objects: 
if (objectA.x,objectA.y) not in currentPositions: 
currentPositions.append((objectA.x,objectA.y) ) 
for pos in currentPositions: 
points.remove(pos) 
location = np randon chai cea onec (len pointe) replace- Falsa) 


return points[location] 


下 面 定义 checkGoal MAL, 用 来 检查 hero LAME T goal 或 者 fire, 我 们 先 从 objects 
中 获取 hero, 并 将 其 他 物体 对 象 放 到 others 列表 中 。 然 后 遍历 others 列表 ,如 果 有 物体 和 
坐标 与 hero 完全 一 致 ， 那 么 可 判定 为 触 磁 。 接 下 来 根据 触 碰 到 的 是 什么 物体 ， 我 们 销毁 
该 物体 ， 并 调用 self newPosition() 方 法 在 随机 位 置 重新 生成 一 个 该 物体 ， 并 返回 这 个 物体 
HJ reward {É (goal 为 1，fire 为 -1 )。 


def checkGoal(self): 
others = [] 


for obj in self.objects: 
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if obj.name == ‘hero’: 
hero = obj 
else: 
others. append(obj) 
for other in others: 
if hero.x == other.x and hero.y == other.y: 
self.objects.remove(other) 
if other.reward == 
self.objects.append(gameOb(self.newPosition(),1,1,1,1, 
‘goal’ )) 
else: 
self.objects.append(gameOb(self.newPosition(),1,1,0,-1, 
‘fire')) 
return other.reward, False 


return @.0,False 


先 创 建 一 个 长 宽 为 size+2, 颜色 通道 数 为 3 的 图 片 , 初始 值 全 部 为 1, 代表 全 为 白色 。 
然后 把 最 外 边 一 圈 内 部 的 像素 的 颜色 值 全 部 赋 为 0， 代 表 黑 色 。 遍 历 物体 对 象 的 列表 
self.objects, 并 设置 这 些 物 体 的 亮度 值 。 同 时 ， 使 用 scipy.misc.imresize 将 图 像 从 原始 大 小 
resize 为 84x84x3 的 尺寸 ， 即 一 个 正常 的 游戏 图 像 尺寸。 


def renderEnv(self): 

a = np.ones([self.sizeY+2, self.sizeX+2,3]) 

afi:-1,1:-1,:] = 0 

hero = None 

for item in self.objects: . 

a[item.y+1:item.ytitem.sizert itemxa]:item.x+item.size+, 

item.channel] = item.intensity 

b = scipy.misc.imresize(a[:,:,0],[84,84,1],interp='nearest') 

c = scipy.misc.imresize(a[:,:,1],[84,84,1],interp='nearest') 

d = scipy.misc.imresize(a[:,:,2],[84,84,1],interp='nearest' ) 

a = np.stack([b,c,d],axis=2) 7 


return a 
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最 后 定义 在 GridWorld 环境 中 执行 一 步 Action 的 方法 。 输 入 的 参数 为 Action， 先 使 
用 self.moveChar(action) 移 动 hero 的 位 置 , 再 使 用 selfcheckGoal0 检 测 hero 是 否 有 触 碰 物 
体 ， 并 得 到 reward 和 done 标记 。 然 后 使 用 self.renderEnv 获取 环境 的 图 像 state, IA 
state, reward 和 done. 


def step(self,action): 
self.moveChar(action) 
reward,done = self.checkGoal() 
state = self.renderEnv() 


return state,reward,done 


接 下 来 调用 刚才 写 好 的 gameEnv 类 的 初始 化 方法 ， 并 设置 size 为 5， 创 建 一 个 5x5 
大 小 的 GridWorld 环境 ,每 一 次 创建 的 GridWorld 环境 都 是 随机 生成 的 。 读 者 可 以 尝试 使 
用 不 同 尺 寸 的 GridWorld， 小 尺寸 的 环境 会 相对 容易 学 习 ， 大 尺寸 的 则 较 难 ， 训 练 时 间 也 
更 长 。 


env = gameEnv(size=5) 


下 面 便 是 我 们 创建 好 的 5x5 的 GridWorld 环境 图 像 ， 如 图 8-12 所 示 ， 因 为 黑白 印刷 
的 原因 ， 其 中 白色 代表 hero, HARA goal (reward 为 1), BRIAR fire (reward 
为 -1 )。 我 们 的 任务 目标 是 在 指定 步 数 (每 一 步 可 以 选择 向 上 、 下 、 左 、 右 移动 ) ARG 
尽 可 能 多 的 分 数 , 我 们 每 触 磁 一 个 物体 , 将 会 销毁 该 物体 并 在 其 他 位 置 重 建 。 因 此 , Agent 
的 目标 就 是 避 开 fire， 同 时 多 触 碰 goal。 我 们 还 需要 规划 最 优 路 线 ， 在 有 限 步 数 内 收集 尽 
可 能 多 的 goal。 当 然 ， 这 些 策 略 都 是 DQN 需要 自己 通过 试验 来 学 习 的 。 





0 10 20 30 4 50 6 70 80 


8-12 5x5 的 GridWorld 环境 ， 和 白色 为 hero， 浅 灰色 为 goal, RAKEN fire 
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FARI inr DON (Deep Q-Network ) 网 络 ， 相 对 上 一 节 的 简单 例子 ， 本 节 
的 网 络 更 复杂 一 些 ， 并 且 使 用 了 卷 积 层 ， 可 以 直接 从 环境 的 原始 像素 中 学 习 策 略 。 输 入 
scalarInput 是 被 扁平 化 的 长 为 84x84x3=21168 的 向 量 ， 需 要 先 将 其 恢复 成 [-1，84，84, 3] 
尺寸 的 图 片 ImageIn。 我 们 使 用 tf.contrib.layers.convolution2d 创建 第 1 ARE, ARI 
尺寸 为 gx8， 步 长 为 4x4， 输 出 通道 数 (filter 的 数量 ) 为 32，padding 模式 为 VALID (以 
下 所 有 层 padding 模式 均 为 VALID ), bias 初始 化 器 为 空 , 因 为 使 用 了 4x4 的 步 长 和 VALID 
模式 的 padding， 所 以 第 一 层 卷 积 的 输出 维度 为 20x20x32。 第 2 个 卷 积 层 尺寸 为 4x4， 步 
长 为 2x2， 输 出 通道 数 为 64， 这 一 层 的 输出 维度 为 9x9x64。 第 3 层 卷 积 层 尺寸 为 3x3， 
步 长 为 1x1， 输 出 通道 数 为 64, EREA 7x7x64。 第 4 层 卷 积 尺寸 为 7x7， 步 
长 为 1x1， 输 出 通道 数 一 下 涨 到 了 512， 这 一 层 的 空间 尺寸 只 人 允许 在 一 个 位 置 进 行 卷 积 ， 
因此 最 后 的 输出 维度 变 为 1x1x512。 


class Qnetwork(): 
def init (self,h size): 
self.scalarInput = tf.placeholder(shape=[None,21168], 
dtype=tf.float32) 

self.imageIn = tf.reshape(self.scalarInput, shape=[-1,84,84,3]) 

self.convi = tf.contrib.layers.convolution2d( 
inputs=self.imageIn, num_outputs=32, 
kernel_size=[8,8],stride=[4,4], 
padding='VALID', biases _initializer=None) 

self.conv2 = tf. contrib. layers.convolution2d( 
inputs=self.conv1,num_outputs=64,kernel_size=[4,4],stride=[2,2], 
padding='VALID', biases_initializer=None) 

self.conv3 = tf. contrib. ayera conyotut Tona 
_inputs=self. conv2, num _ outputs= 64, kernel_ size= Ts 3], stride= [1, 15 
padding='VALID', biases _initializer= None) 

self.conv4 = aa ee ae 
inputs=self.conv3,num_outputs=512, 
kernel _size=[7,7],stride=[1,1], 


padding= VALID ， biases _initializer= None) 


接 下 来 ， 使 用 给 split() 将 第 4 个 卷 积 层 的 输出 conv4 平均 拆 分 成 两 段 ，streamAC 和 
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streamVC ， 即 Dueling DQN 中 的 Advantage Function ( Action 市 来 的 价值 ) 和 Value 
Function ( 环境 本 身 的 价值 )。 这 里 注意 tf.split 函数 的 第 2 个 参数 代表 要 拆 分 成 几 段 , 第 3 
个 参数 代表 要 拆 分 的 是 第 几 个 维度 。 然 后 分 别 使 用 tf.contrib.layers.flatten 将 streamAC 和 
streamVC 转 为 扁平 的 steamA 和 streamV。 下 面 创 建 streamA 和 streamV 的 线性 全 连接 层 
参数 AW 和 VW， 我 们 直接 使 用 tfrandom_ normal 初始 化 它们 的 权重 ， 再 使 用 tf.matmul 
做 全 连接 层 的 矩阵 乘法 ， 得 到 self. Advantage 和 selfValue。 因 为 Advantage 是 针对 Action 
的 ， 因 此 输出 数量 为 Action 的 数量 ， 而 Value 则 是 针对 环境 统一 的 ， 输 出 数量 为 1。 我 们 
的 Q 值 则 由 Value 和 Advantage 复合 而 成 , 即 Value 加 上 减 去 均值 的 Advantage. Advantage 
减 去 均值 的 操作 使 用 的 是 萎 subtract ， 均 值 计 算 使 用 的 是 threduce_mean K 2X 
(reduce indices 为 1， 即 代表 Action 数量 的 维度 )。 最 后 输出 的 Action 即 为 Q 值 最 大 的 
Action， 这 里 使 用 tf.aremax 求 出 这 个 Action。 


self.streamAC,self.streamVC = tf.split(self.conv4,2,3) 
self.streamA = tf.contrib.layers.flatten(self.streamAC) 
self.streamV tf.contrib.layers.flatten(self.streamVC) 

self.AW = tf.Variable(tf.random_normal([h_size//2,env.actions])) 
self.VW = tf.Variable(tf.random_normal([h_size//2,1])) 
self.Advantage = tf.matmul(self.streamA, self. Aw) 

self.Value = tf.matmul(self.streamV, self.VW) 


self .Qout = self.Value + tf. subtract(self.Advantage,tf.reduce_mean( 
self.Advantage, reduction indices=1,keep dims=True) ) 


self.predict = tf.argmax(self.Qout,1) 


我 们 定义 Double DQN 中 的 目标 Q 值 targetQ 的 输入 placeholder， 以 及 Agent 的 动作 
actions 的 输入 placeholder。 在 计算 目标 Q 值 时 ，action 由 主 DQN 选择 ，Q 值 则 由 辅助 的 
target DQN 生成 。 在 计算 预测 Q 值 时 , 我 们 将 scalar 形式 的 actions 转 为 onehot 编码 的 形 
式 ， 然 后 将 主 DON 生成 的 Qout RLA actions_onehot， 得 到 预测 Q 值 ( Qout 和 actions 都 
来 自主 DQN )。 


self.targetQ = tf. placeholder(shape=[None], dtype=tf. float32) 
self.actions = tf. placeholder (shape= [None], dtype=tf. int32) _ 
self.actions_onehot = tf. one_hot(self.actions,env.actions, 


dtype=tf.float32) 
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self.Q = tf.reduce_sum(tf.multiply(self.Qout, self.actions_onehot), 


reduction_indices=1) 


接 下 来 定 X loss， 使 用 tf.square 和 tf.reduce mean 计算 targetQ FI Q 的 均 方 误差 , 并 
使 用 学 习 速 率 为 le-4 的 Adam 优化 器 优化 预测 Q 值 和 目标 Q 值 的 偏差 。 


self.td_error = tf.square(self.targetQ - self.Q) 
self.loss = tf.reduce_mean(self.td_error) 
self.trainer = tf.train.AdamOptimizer(learning rate= 0.0001) 


self.updateModel = self.trainer.minimize(self.loss) 


接 下 来 实现 前 面 提 到 的 Experience Replay 策略 。 我 们 定义 experience buffer 的 class, 
其 初始 化 需要 定义 buffer_size 即 存储 样本 的 最 大 容量 , 并 创建 buffer 的 列表 。 然 后 定义 向 
buffer 中 添加 元 素 的 方法 ， 如 果 超 过 了 buffer 的 最 大 容量 ， 就 清空 前 面 最 早 的 一 些 样 本 ， 
并 在 列表 末尾 添加 新 元 素 。 然 后 在 定义 对 样本 进行 抽样 的 方法 ， 这 里 直接 使 用 
random.sample() 函 数 随 机 抽取 一 定数 量 的 样本 。 
class experience_buffer(): 

def _ init__(self, buffer_size = 50000): 

self.buffer = [] 


self.buffer_size = buffer_size 


def add(self,experience): 
if len(self.buffer) + len(experience) >= self.buffer_size: 
self.buffer[@:(len(experience)+len(self.buffer)) - \ 
self.buffer_size] = [] 


self. buffer.extend(experience) 


def sample(self,size): 
return np.reshape(np.array(random.sample(self.buffer,size)), 


[size,5]) 


下 面 定 义 将 84x84x3 AY states 局 平 化 为 1 维 向 量 的 函数 processState， 这 样 做 的 主要 
目的 是 后 面 扒 倒 样本 时 会 比较 方便 。 


def processState(states): 
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return np.reshape(states, [21168]) 


这 里 的 updateTargetGraph 函数 是 更 新 target DON 模型 参数 的 方法 (© DON 则 是 直 
接 使 用 DQN class 中 的 self.updateModel 方 法 更 新 模型 参数 )。 我 们 的 输入 变量 tfvars 是 
TensorFlow Graph 中 的 全 部 参数 ，tau 是 target DON AE DQN Žž JKK, AŽ 
updateTargetGraph HY tfVars 中 前 一 半 人 参数 ， 即 主 DQN 的 模型 参数 ， 再 令 辅 助 的 target 
DON 的 参数 朝向 主 DQN 的 参数 前 进 一 个 很 小 的 比例 ( 即 tau， 一 般 设 为 0.001 )， 这 样 做 
是 让 target DQN 缓慢 地 学 习 主 DQN。 我 们 在 训练 时 ， 目 标 Q 值 不 能 在 儿 次 迭代 间 疲 动 
太 大 ， 否 则 训练 会 非常 不 稳定 并 且 失 控 ， 陷 入 目标 Q 值 和 预测 Q 值 之 间 的 反馈 循环 中 。 
因此 ， 需 要 使 用 稳定 的 目标 Q 值 训 练 主 网 络 ， 所 以 我 们 使 用 一 个 缓慢 学 习 的 target DQN 
网 络 输 出 目标 Q 值 ， 并 让 主 网 络 来 优化 目标 Q 值 和 预测 Q 值 间 的 loss， 骨 让 target DQN 
跟随 主 DQN FFB. PAX updateTargetGraph 会 创建 更 新 target DON 模型 参数 的 操 
作 ， 而 函数 updateTarget 则 直接 执行 这 些 操作 。 


def updateTargetGraph(tfVars, tau): 
total vars = len(tfVars) 
op_holder = [] 
for idx,var in enumerate(tfVars[@:total_vars//2]): 
op_holder.append(tfVars[idx+total vars//2].assign((var.value() * \. 
- tau) + ((1-tau)*tfVars[idx+total_vars//2].value()))) 


return op holder 


def updateTarget(op_holder,sess): 
-for op in op holder: . 


sess .run(op) 


下 面 是 DQN 网 络 及 其 训练 过 程 的 一 些 参数 。 batch size 即 每 次 从 experience buffer 
中 获取 多 少 样本 ， 设 为 32; 更 新 频率 update freq， 即 每 隔 多 少 step 执行 一 次 模型 参数 更 
新 , 设 为 4; Q 值 的 衰减 系数 ( discount factor )y 设 为 0.99; startE 为 起 始 的 执行 随机 Action 
的 概率 ; endE 为 最 终 的 执行 随机 Action 的 概率 ( 在 训练 时 , 我 们 始终 需要 一 些 随 机 Action 
进行 探索 ， 实 际 预测 时 则 没有 必要 ); anneling steps 是 从 初始 随机 概率 降 到 最 终 随 机 概率 
所 需要 的 步 数 ; num_episodes 指 总 共 进 行 多 少 次 GridWorld 环境 的 试验 ; pre_train_steps 
代表 正式 使 用 DQN 选择 Action 前 进行 多 少 步 随机 Action 的 测试 ; max_epLength 是 每 个 
episode 进行 多 少 步 Action; load model 代表 是 否 读 取 之 前 训练 的 模型 ，path 是 模型 储存 
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的 路 径 ; h size 是 DQN 网 络 最 后 的 全 连接 层 的 隐 含 节点 数 ; tau 是 target DQN 向 主 DQN 
学 习 的 速率 。 

batch size = 32 

update freq = 4 


y = .99 
SS 二 避让 民居 一 生息 
endE = @.1 


anneling steps = 10000. 
num_episodes = 10000 
pre_train_steps = 10000 
max epLength = 50 


load_model = False 


path = "./dqn" 
h_size = 512 
tau = 0.001 


我 们 使 用 前 面 写 好 的 Qnetwork 类 初始 化 mainQN 和 辅助 的 targetQN， 并 初始 化 所 有 
模型 参数 。 同 时 ， 使 用 trainables 获取 所 有 可 训练 的 参数 ， 并 使 用 updateTargetGraph 创建 
更 新 target DQN 模型 参数 的 操作 。 
mainQN = Onetwork(h_ size) | 
targetQN = Qnetwork(h_size) 


init = tf.global variables initializer({) 


trainables = tf.trainable variables() 


targetOps = updateTargetGraph(trainables, tau) 


我 们 使 用 前 面 定 义 的 experience_buffer 创建 experience replay 的 class, 设置 当前 随机 
Action 的 概率 e, 并 计算 e 在 每 一 步 应 该 衰减 的 值 stepDrop。 接 着 初始 化 储存 每 一 个 episode 
的 reward 的 列表 rList， 总 步 数 为 total steps。 然 后 创建 模型 训练 的 保存 器 (Saver )， 并 检 
查 保存 目录 是 否 存在 。 


myBuffer = experience_buffer() 
e = startE 
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stepDrop = (startE - endE)/anneling_steps 


rList:= [] 
total steps = 6 


Saver = tf.train.Saver() 
if not os.path.exists(path): 
os.makedirs (path) 


接 下 来 创建 默认 的 Session， 如 果 load_model 标志 为 True， 那 么 检查 模型 文件 路 径 的 
checkpoint， 读 取 并 载 入 之 前 已 保存 的 模型 。 接 着 ,我 们 执行 参数 初始 化 的 操作 ， 并 执行 
更 新 targetQN 模型 参数 的 操作 。 然 后 创建 进行 GridWorld 试验 的 循环 , 并 创建 每 个 episode 
内 部 的 experience_buffer， 这 些 内 部 的 buffer 不 会 参与 当前 迭代 的 训练 ， 训 练 只 会 使 用 之 
前 episode 的 样本 。 同 时 ， 初 始 化 环境 得 到 第 一 个 环境 信息 s， 并 使 用 processState() 函 数 
将 其 局 平 化 。 我 们 初始 化 默认 的 done 标记 d, episode 内 总 reward {H rAll， 以 及 episode 
内 的 步 数 j。 


with tf.Session() as sess: 

if load_model == True: 
print( ‘Loading Model...") 
ckpt = tf.train.get_checkpoint_state(path) 
Saver.restore(sess,ckpt.model_ checkpoint_path) 

sess.run(init) 

updateTarget(targetOps, sess) 

for i in range(num_episodes+1): 
episodeBuffer = experience_buffer() 
s = env.reset() a | 


“~s = processState(s) 


d = False 
rAll = 0 
j = 6 


接着 创建 一 个 内 层 循 环 ， 每 一 次 迭代 执行 一 次 Action。 当 总 步 数 小 于 pre_train_steps 
时 ， 强 制 使 用 随机 Action， 相 当 于 只 从 随机 Action 学 习 ， 但 不 去 强化 其 过 程 。 达 到 
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pre_train_steps 后 ,我 们 会 保留 一 个 较 小 的 概率 去 随机 选择 Action。 若 不 随机 选择 Action, 
则 传 入 当前 状态 s 给 主 DQN， 预 测 得 到 应 该 执行 的 Action。 然 后 使 用 env.step0 执 行 一 步 
Action， 并 得 到 接 下 来 的 状态 s1 reward 和 done 标记 。 我 们 使 用 processState 对 s1 进行 
扁平 化 处 理 ， 然 后 将 s、a、r、s1、d 等 结果 传 入 episodeBuffer 中 存储 。 


while j < max_epLength: 
j+=1 
if np.random.rand(1) < e or total_steps < pre_train_steps: 
a = np. random. randint (9,4) 
else: 
a = sess.run(mainQN.predict, 
feed dict={mainQN.scalarInput:[s]})[@] 
si,r,d = env.step(a) | 
S1 = processState(s1) 
total steps += 1 
episodeBuffer.add(np.reshape(np.array([s,a,r,si1,d]),[1,5])) 


当 总 步 数 超过 pre_train_steps 时 ， 我 们 持续 降低 随机 选择 Action 的 概率 e， 直 到 达到 
其 最 低 值 enadE。 并 且 每 当 总 步 数 达到 update freq 的 整数 倍 时 ， 我 们 进行 一 次 训练 ， 即 模 
型 参数 的 更 新 。 首 先是 从 myBuffer 中 sample 出 一 个 batch size 的 样本 ， 然 后 将 训练 样本 
中 第 3 列 信息 ， 即 下 一 个 状态 s1， 传 入 mainQN 并 执行 main.predict， 得 到 主 模 型 选择 的 
Actions EP sl 传 入 辅助 的 targetQN， 并 得 到 sl 状态 下 所 有 Action 的 Q 值 。 接 下 来 , 使 
用 mainQN 的 输出 Action， 选 择 targetQN 输出 的 Q， 得 到 doubleQ。 这 里 使 用 两 个 DQN 
网 络 把 选择 Action 和 输出 Q 值 两 个 操作 分 隔 开 来 的 做 法 ， 正 是 Double DON 的 方法 。 然 
后 使 用 训练 样本 的 第 2 列 信息 ， 即 当前 的 reward， 加 上 doubleQ 乘 以 衰减 系数 y， 得 到 我 
们 的 学 习 目 标 targetQ。 接 着 ， 传 入 当前 的 状态 s， 学 习 目 标 targetQ 和 这 一 步 实际 采取 的 
Action， 执 行 updateModel 操作 更 新 一 次 主 模型 mainQN 的 参数 ( 即 执行 一 次 训练 操作 )。 
同时 也 调用 updateTarget 函数 ,执行 一 次 targetQN 模型 参数 的 更 新 ( 缓慢 地 向 mainQN 学 
习 )， 这 样 束 完 整地 完成 了 一 次 训练 过 程 。 同 时 ， 在 每 个 step 结束 时 ， 累 计 当 前 这 步 获取 
的 reward， 并 更 新 当前 状态 为 下 一 步 试 验 做 准备 。 如 果 done 标记 为 True， 我 们 直接 中 断 
这 个 episode 的 试验 。 

| if total steps > pre train steps: 


if e > endE: 
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e -= stepDrop 
if total steps % (Update freq) == 6: 
trainBatch = myBuffer.sample(batch_size) 
A = sess.run(mainQN.predict,feed dict={ 
mainQN.scalarInput:np.vstack(trainBatch[:,3])}) 
Q = sess.run(targetQN.Qout, feed dict={ 
targetQN.scalarInput:np.vstack(trainBatch[:,3])}) 
doubleQ = Q[range(batch_size),A] 
targetQ = trainBatch[:,2] + y*doubleQ 
_ = sess.run(mainQN.updateModel,feed_dict={ 
mainQN.scalarInput:np.vstack(trainBatch[:,@]), 
mainQN.targetQ:targetQ, 


mainQN.actions:trainBatch[:,1]}) 


: updateTarget(targetOps, sess) 
rAll += r 


SiS 1 
ins pe True; 
break 


我 们 将 episode 内 部 的 episodeBuffer 添加 到 myBuffer 中 ， 用 作 以 后 训练 抽样 的 数据 
集 ， 并 将 当前 episode 的 reward 添加 到 rList 中 。 然 后 ， 每 25 个 episode 就 展示 一 次 它们 
平均 的 reward 值 ， 同 时 每 1000 个 episode 或 全 部 训练 完成 后 ， 保 存 当前 模型 。 


myBuffer.add(episodeBuffer.buffer) 
rList.append(rAll) | 
if i>@ ae i % 25 == @: 
print (‘episodes i average De last 25 episode’, 
np.mean(rList[-25:])) 
if i>@ and i % 1000 == ð: 
saver. save(sess, path+'/model-'+str(i)+'.cptk') 
print( "Saved Model") : 


- Saver.save(sess,path+' /model-‘'+str(i)+'.cptk') 
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8 TensorFlow 实现 深度 强化 学 习 T- 


TEDAR 200 个 episode 内 , 即 完全 随机 Action 的 前 10000 步 内 ,平均 可 以 获得 reward 
在 2 附近 ， 这 是 基础 的 baseline。 


episode 25 , average reward of last 25 episode 2.52 
episode 50 , average reward of last 25 episode 2.32 
episode 75 , average reward of last 25 episode 1.68 
episode 100 , average reward of last 25 episode 1.92 
episode 125 , average reward of last 25 episode 2.16 
episode 150 , average reward of last 25 episode 2.28 
episode 175 , average reward of last 25 episode 1.6 


episode 200 , average reward of last 25 episode 2.36 


这 是 训练 到 最 后 一 些 episode 的 输出 ， 半 均 reward 已 经 涨 到 了 22 左右 ， 相 比 之 前 的 
baseline 是 非常 大 的 提升 。 


episode 9750 , average reward of last 25 episode 23.36 
episode 9775 , average reward of last 25 episode 22.8 
episode 9800 , average reward of last 25 episode 22.36 
episode 9825 , average reward of last 25 episode 22.68 
episode 9850 , average reward of last 25 episode 22.0 
episode 9875 , average reward of last 25 episode 22.96 
episode 9900 , average reward of last 25 episode 22.68 
episode 9925 , average reward of last 25 episode 21.88 
episode 9950 , average reward of last 25 episode 22.08 


episode 9975 , average reward of last 25 episode 22.2 


计算 每 100 个 episodes 的 平均 reward， 并 使 用 plt.plot 展示 reward 变化 的 趋势 。 


rMat = np.resize(np.array(rList),[len(rList)//100,100]) 
rMean = np.average(rMat,1) 


plt.plot(rMean) 


如 图 8-13 所 示 , 我 们 可 以 看 到 从 第 1000 个 episode 开始 ， reward 快速 提升 , 到 第 4000 
个 episode 时 基本 达到 了 高 峰 ， 后 面 进 入 平台 期 ， 没 有 太 大 提升 。 
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25 


10 


0 20 40 60 80° 100 
8-13 ”训练 过 程 中 reward 的 变化 趋势 
本 节 中 讲述 了 DQN 的 基本 原理 ， 和 使 用 DQN 的 几 个 非常 重要 的 Trick, Ay DQN 
的 研究 仍 在 快速 发 展 中 ， 已 经 有 越 来 越 多 新 的 技术 被 应 用 到 DQN Ho DON 首次 被 提出 
T, 在 Atari 2600 游戏 中 展示 出 了 惊人 的 表现 ， 并 直接 引发 了 深度 强化 学 习 的 热 淹 。 相 
信 在 未 来 ，DQN 或 Value Network 会 继续 在 更 多 地 方 发 挥 出 强大 的 作用 。 
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TensorBoard. #% GPU 
并 行 及 分 布 式 并 行 


9.1 TensorBoard 


TensorBoard 是 TensorFlow 官方 推出 的 可 视 化 工具 ， 如 图 9-1 所 示 ， 它 可 以 将 模型 训 
练 过 程 中 的 各 种 汇总 数据 展示 出 来 , 包括 标量 ( Scalars )、 图 片 ( Images ) 音频 ( Audio )、 
计算 图 ( Graphs ), 数据 分 布 ( Distributions )、 直 方 图 ( Histograms AIK A IF] E Embeddings )。 
我 们 在 使 用 TensorFlow 训练 大 型 深度 学 习 神 经 网 络 时 ， 中 间 的 计算 过 程 可 能 非常 复杂 ， 
因此 为 了 理解 、 调 试 和 优化 我 们 设计 的 网 络 ， 可 以 使 用 TensorBoard 观察 训练 过 程 中 的 各 
种 可 视 化 数据 。 如 果 要 使 用 TensorBoard 展示 数据 , 我 们 需要 在 执行 TensorFlow 计算 图 的 
过 程 中 ,将 各 种 类 型 的 数据 汇总 并 记录 到 日 志文 件 中 。 然 后 使 用 TensorBoard 读 取 这 些 日 
忘 文件， 解析 数据 并 生成 数据 可 视 化 的 Web 页 面 ， 让 我 们 可 以 在 浏览 器 中 观察 各 种 汇总 
数据 。 下 面 我 们 将 通过 一 个 简单 的 MNIST 手写 数 子 识别 的 例子 ， 讲解 各 种 类 型 数据 的 汇 
总 和 展示 的 方法 。 
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Wrile a regex to cr eai ié a tag aroun x accuracy. 


: Cross Lentropy 1 


[C] Split on underscores 





(| Data download links cross_entropy_1 
Tooltip sorting method: default v 3X) | 
2x | 
160 | 
Smoothing 100 
as 06 U.500 
eee Se 3.00 


U.0CCG 200.6 AE 446 KOC 309.0 7% Ok 
Horizontal Axis 


Mi 


ra 





RELATIVE WALL 





dropout 


图 9-1 TensorBoard 





基于 Web 的 TensorFlow 数据 可 视 化 工具 





我 们 首先 载 学 习 速率 为 0.001, dropout 
的 保留 比率 为 0.9。 同 时 , 设置 MNIST 数据 的 下 载 地 址 data_dir 和 汇总 数据 的 日 志和 存放 路 
双 log dir。 这 里 的 日 志 路 径 log dir 非常 重要 , 会 存放 所 有 汇总 数据 供 TensorBoard 展示 。 
本 节 代 码 主要 来 自 TensorFlow 的 开源 实现 “7。 





import tensorflow as tf 

from tensorflow.examples.tutorials.mnist import input_data 
max_steps=1000 | 

learning rate=0.001 

dropout=8.9 | 

data _dir='/tmp/tensorflow/mnist/input_ data' 


log_ Gate: /tmp/tensorflow/mnist/logs/mnist_ with_ summaries’ 


我 们 使 用 input _dataread data sets 下 载 MNIST 数据 ， 并 创建 # TensorFlow 的 默认 


Session. 
mnist = input_data.read_data_sets(data_dir,one_hot=True) 


sess = tf. InteractiveSession() See Ue ae 

为 了 在 TensorBoard 中 展示 节点 名 称 ,我 们 设计 网 络 时 会 经 常 使 用 with tfiname_scope 
限定 命名 空间 ， 在 这 个 with 下 的 所 有 节点 都 会 被 自动 命名 为 input/xxx 这 样 的 格式 。 下 面 
定义 输入 x Fl y 的 placeholder， 并 将 输入 的 一 维 数据 变形 为 28x28 的 图 片 储 存 到 男 一 个 
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9 TensorBoard, 2 GPU 并 行 及 分 布 式 并 行 


tensor， 这 样 就 可 以 使 用 tf.summary.image 将 图 片 数据 汇总 给 TensorBoard 展示 了 。 


with tf.name_scope(‘input'): 
x = tf.placeholder(tf.float32, [None, 784], name='x-input' ) 
y_ = tf.placeholder(tf.float32, [None, 10], name='y-input' ) 


with tf.name_scope('input_reshape'): 
image_shaped_input = tf.reshape(x, [-1, 28, 28, 1]) 


tf.summary.image(‘input', image shaped_input, 10) 


同时 ， 定义 神经 网 络 模型 参数 的 初始 化 方法 ， 权 重 依 然 使 用 我 们 常用 的 
truncated_normal 进行 初始 化 ， 偏 置 则 赋值 为 0.1。 


def weight_variable(shape): 
initial = tf.truncated_normal(shape, stddev=@.1) 


return tf.Variable(initial) 


def bias variable(shape): 
initial = tf.constant(@.1, shape=shape) 


return tf.Variable(initial) — 


用 定义 对 Variable 变量 的 数据 汇总 函数 ， 我 们 计算 出 Variable 的 mean, stddev, max 
和 min ， 对 这 些 标量 数据 使 用 tsummary.scalar 进行 记录 和 汇总 。 同 时 ， 使 用 
tf.summary. histogram 直接 记录 变量 var 的 直方 图 数据 。 


def variable summaries(var): 
with tf.name_scope('summaries'): 
mean = tf.reduce_mean(var) . 
tf.summary.scalar('mean', mean) 
with tf.name_scope('stddev'): 
Stddev = tf.sqrt(tf.reduce_mean(tf.square(var - mean))) 
tf.summary.scalar('stddev'’, stddev) 
tf.summary.scalar('max’, tf.reduce_max(var)) 
Er min. tf.reduce_min(var) ) 


tf.summary.histogram('histogram’, var) 
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后 我 们 设计 一 个 MLP 多 层 神 经 网 络 来 训练 数据 ， 在 每 一 层 中 都 会 对 模型 参数 进行 
数据 汇总 。 因此 , 我 们 定义 创建 一 层 神 经 网 络 并 进行 数据 汇总 的 函数 an_layer。 这 个 函数 
的 输入 参数 有 输入 数据 input tensor、 输 入 的 维度 input_dim、 输 出 的 维度 output_dim 和 层 

名称 layer name， 激 活水 数 act 则 默认 使 用 ReLU。 在 函数 内 ， 先 是 初始 化 这 层 神经 网 络 
的 权重 和 偏重 ， 并 使 用 前 面 定义 的 variable_summaries 对 variable 进行 数据 汇总 。 然 后 对 
输入 做 矩阵 乘法 并 加 偏 置 , 再 将 未 进行 激活 的 结果 使 用 tf.summary.histogram 统计 直方 图 。 
同时 ， 在 使 用 激活 函数 后 ， 册 使 用 tfsummary.histogram 统计 一 次 。 


def nn_layer(input_tensor, input_dim, output_dim, layer_name, 
act=tf.nn.relu): 
with tf.name_scope(layer_name): 
with tf.name_scope('weights' ): 
weights = weight_variable([input_dim, output_dim]) 
variable summaries(weights) — 
with tf.name_scope( biases"): 
biases = bias variable([output_dim]) 
variable summaries(biases) 
with tf.name_scope('Wx_plus_b"): 
preactivate = tf.matmul(input_tensor, weights) + biases 
tf.summary.histogram('pre_activations’, preactivate) 
activations = act(preactivate, name='activation’ ) 
tf.summary.histogram( ‘activations’, activations) 


return activations 


我 们 使 用 刚刚 定义 好 的 n layer 创建 一 层 神经 网 络 ， 输 入 维度 是 图 片 的 尺寸 
( 784=28x28 )， 输 出 的 维度 是 隐藏 节点 数 500。 再 创建 一 个 Dropout 层 , .并 使 用 
tf.summary.scalar 记录 keep prob。 然 后 再 使 用 nn_layer 定义 神经 网 络 的 输出 层 , 其 输入 维 
度 为 上 一 层 的 隐 含 节点 数 500, 输出 维度 为 类 别 数 10, 同时 激活 函数 为 全 等 映射 identity， 
即 暂 不 使 用 Softmax， 在 后 面 会 处 理 。 


hidden1 = nn_layer(x, 784, 500, ‘layer1’) 


with tf.name_scope( ‘dropout’ ): 


keep _ prob = tf. placeholder (tf.float32) 
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tf.summary.scalar('dropout keep probability', keep_prob) 
dropped = tf.nn.dropout(hiddeni, keep_prob) 


y = nn_layer(dropped, 500, 10, ‘layer2', act=tf.identity) 


这 里 使 用 tf.nn.softmax cross entropy with logits() 对 前 面 输出 层 的 结果 进行 Softmax 
处 理 并 计算 交叉 焙 损 失 cross_entropy。 我 们 计算 平均 的 损失 ， 并 使 用 thsummary.scalar 进 
行 统计 汇总 。 
with tf.name_scope('cross_ entropy’): 
diff = tf.nn.softmax_cross entropy with_logits(logits=y, labels=y_) 
with tf.name_scope(‘total'): 
cross_entropy = tf.reduce_mean(diff) 


tf.summary.scalar('cross_ entropy’, cross_entropy) 


下 面 使 用 Adma 优化 器 对 损失 进行 优化 ， 同 时 统计 预测 正确 的 样本 数 并 计算 正确 率 
accuray, HEJ tf.summary.scalar 对 accuracy 进行 统计 汇总 。 


with tf.name_scope( train ) : 
train step = tf.train.AdamOptimizer(learning rate).minimize(cross entropy) 
with tf.name_scope('accuracy'): 
with tf.name_scope('correct_prediction’ ): 
correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1)) 
with tf.name_scope('accuracy’ ): | 
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32) ) 


tf.summary.scalar('accuracy’, accuracy) 


因为 我 们 之 前 定义 了 非常 多 的 thsummary NECARE, BAITA ER EA, 
所 以 这 里 使 用 tf.summary.merger all() 直 接 获 取 所 有 汇总 操作 , 以 便 后 面 执行 。 然 后, 定义 
两 个 tf.summary.FileWriter (文件 记录 器 ) 在 个 同 的 于 目录 ， 分别 用 来 存放 训练 和 测试 的 
日 志 数 据 。 同 时 ,将 Session 的 计算 图 sess.graph 加 入 训练 过 程 的 记录 器 ,这 样 在 TensorBoard 
的 GRAPHS 窗口 中 就 能 展示 整个 计算 图 的 可 视 化 效果 。 最 后 使 用 
tf.global variables initializer().run() 初 始 化 全 部 变量 。 


merged = tf.summary.merge_all() 


train writer = tf.summary.FileWriter(log dir + '/train', sess.graph) | 
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test_writer = tf.summary.FileWriter(log dir + /test  ) 


tf.global variables initializer().run() 


接 下 来 定义 feed_dict 的 损失 函数 。 该 函数 先 判断 训练 标记 ， 如 果 训 练 标 记 为 True， 
则 从 mnist.train 中 获取 一 个 batch 的 样本 ， 并 设置 dropout 值 ; 如 果 训 练 标记 为 False， 则 
获取 测试 数据 ， 并 设置 keep_prob 为 1， 即 等 于 没有 dropout 效果 。 


def feed_dict(train): 

if train: 
XS VS 三 mnist.train.next_batch(100) 
k = dropout 

else: 
XS, YS = mnist.test.images, mnist.test.labels 
k = 1.0 

return {x: xs, y_: ys, keep_prob: k} 


最 后 一 步 ， 实 际 执行 具体 的 训练 、 测 试 及 日 志 记 录 的 操作 。 首 先 使 用 tf.train.Saver() 
创建 模型 的 保存 器 。 然 后 进入 训练 的 循环 中 ， 每 阳 10 步 执行 一 次 merged (数据 汇总 小 
accuracy ( 求 测 试 集 上 的 预测 准确 率 ) 操作 ， 并 使 用 test_writer.add_sumamry 将 汇总 结果 
summary 和 循环 步 数 i 写 入 日 志文 件 ;同时 每 隔 100 步 , 使 用 萎 RunOptions 定义 TensorFlow 
运行 选项 ,其 中 设置 trace level 为 FULL TRACE, 并 使 用 给 RunMetadata() 定 义 TensorFlow 
运行 的 元 信息 ， 这 样 可 以 记录 训练 时 运算 时 间 和 内 存 占用 等 方面 的 信息 。 冉 执行 merged 
数据 汇总 操作 和 train_step 训练 操作 ,将 汇总 结果 summary 和 训练 元 信息 run_metadata 添 
加 到 train_writer。 平 时 ， 则 只 执行 merged 操作 和 train_step 操作 ， 并 添加 summary 到 
train writer。 所 有 训练 全 部 结束 后 ， 大 网 train writer 和 test_writer. 


saver = tf.train.Saver() 
for i in range(max_steps): 
if i- %10:==" ð: 
summary, acc = sess.run([merged, accuracy], feed dict=feed_dict(False)) 
test_writer.add summary(summary, i) 
print( ‘Accuracy at step %s: %s' % (i, acc)) 
else: 7 
if i % 100 == 99: 
run_options = tf.RunOptions(trace_level=tf.RunOptions.FULL_TRACE) 
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run_metadata = tf.RunMetadata() 


= sess.run([merged, train_step], feed_dict=feed_dict(True), 


summary, 
options=run_options, run_metadata=run_metadata) 
train_writer.add_run_metadata(run_metadata, ‘step%@3d' % i) 
train_writer.add_summary(summary, i) 
Saver.save(sess, log dir+"/model.ckpt", i) 
print( ‘Adding run metadata for’, i) 
else: 


Summary, = sess.run([merged, train_step], feed _dict=feed_dict(True) ) 


train_writer.add_summary(summary, i) 
train_writer.close() 


test_writer.close() 


之 后 切换 到 Linux 命令 行 下 , 执行 TensorBoard 程序 , 并 通过 --logdir 指定 TensorFlow 
日 志 路 径 ， 然 后 TensorBoard 就 可 以 目 动 生成 所有 汇总 数据 可 视 化 的 结果 了 。 


tensorboard --logdir=/tmp/tensorflow/mnist/logs/mnist_with_summaries 


执行 上 面 的 命令 后 , 出 现 一 条 提示 信息 , 复制 其 中 的 网 址 到 浏览 器 ,就 可 以 看 到 数据 
可 视 化 的 图 表 了 。 
Starting TensorBoard b'39' on port 6006 
(You can navigate to http: //192.168.233.101: 60086) 


首先 打开 标量 SCALARS 的 窗口 , 并 单 击 打开 accuracy 的 图 表 ， 如 图 9-2 所 示 。 其 中 
可 以 看 到 两 条 曲线 , 分 别 是 train 和 test 中 accuray 随 训练 步 数 变化 的 趋势 。 我们 可 以 调整 
Smoothing 参数 ， 控 制 对 曲线 的 平滑 处 理 ， 数 值 越 小 越 接近 实际 值 ， 但 波动 较 大 ; 数值 越 
大 则 曲线 越 平缓 。 单 击 图 表 左下 方 的 按钮 ,可 以 放大 这 个 图 片 , 单 击 它 右 边 的 按钮 则 可 以 
调整 坐标 轴 的 范围 ， 以 便 更 清楚 地 展示 。 

切换 到 图 像 IMAGES 窗口 ， 如 图 9-3 所 示 ， 可 以 看 到 MNIST 数据 集中 的 图 片 。 不 只 


是 原始 数据 ， 所 有 在 tfsumamry.image() 中 汇总 的 图 片 数 据 都 可 以 在 这 里 看 到 ， 包 括 进行 
了 各 种 光学 畸变 后 的 图 片 ， 或 是 神经 网 络 的 中 间 节 点 的 输出 。 
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€ C © 192.168.233.101:6006 





TensorBoard = SCALARS. MAGES AUDIO. GRAPHS 3 


Write a regex to create a tag group x accuracy_1 
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9-2 TensorBoard SCALARS 变量 展示 效果 
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9-3 TensorBoard IMAGES 图 片 展示 效果 


进入 计算 图 GRAPHS 窗口 ,可 以 看 到 整个 TensorFlow 计算 图 的 结构 ,如 图 9-4 所 示 。 
这 里 展示 了 网 络 forward 的 inference 的 流程 ， 以 及 backward 训练 更 新 参数 的 流程 。 我 们 
在 代码 中 创建 的 只 有 forward Ei fE: input > layerl > dropout > layer2 一 
cross_entropy accuracy 的 , 而 训练 中 backward 的 求解 梯度 、 更 新 参数 等 操作 是 TensorFlow 
帮 我 们 自动 创建 的 。 图 中 实 线 代表 数据 上 的 依赖 和 关系， 虚线 代表 控制 条 件 上 的 依赖 天 系 。 
单 击 某 个 节点 的 窗口 ,可 以 查看 它 的 属性 、 输 入 及 输出 ,并 且 可 以 看 到 输出 tensor 的 尺寸 。 
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我 们 也 可 以 单 击 节点 右上 角 的 “+” 号 按钮 , 展开 这 个 node 的 内 部 细节 。 例如 , 单 击 layer2 
可 以 看 到 内 部 的 weights、biases、 和 矩阵 乘法 操作 、 向 量 加 法 操作 ， 以 及 激活 六 数 计算 的 操 
作 ， 这 些 操作 都 归属 于 tf.name_scope('layer2') 这 个 命名 空间 (name scope )。 所 有 在 一 个 
命名 空间 中 的 节点 都 会 被 折 生 在 一 起 , 在 设计 网 络 时 , 我 们 要 尽 可 能 精细 地 使 用 命名 空间 
对 节点 名 称 进 行规 范 ， 这 样 会 展示 出 更 清晰 的 结构 。 同 时 ， 在 TensorBoard 中 ， 我 们 可 以 
右键 单 击 一 个 节点 并 选择 删除 它 , 这 不 会 真 的 在 计算 图 中 中 删除 它 , 但 是 可 以 简化 我 们 的 
视图 ， 以便 更 好 地 观察 网 络 结构 。 我们 也 可 以 切换 配色 风格 , 一 种 是 基于 结构 的 ， 相同 的 
结构 的 节点 有 一 样 的 颜色 ; 男 一 种 是 基于 运算 硬件 的 , 在 同一 个 运算 硬件 上 的 节点 有 一 样 
的 颜色 。 同时, 我 们 可 以 单 击 左边 面板 的 Session runs, 选择 我 们 之 前 记录 过 run_metadata 
的 训练 元 信息 ， 这 样 可 以 查看 某 轮 和 迭代 计算 的 时 间 消 耗 、 内 存 占 用 等 情况 。 
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9-4 TensorBoard GRAPHS 计算 图 展示 效果 
切换 到 DISTRIBUTIONS 窗口 , 如 图 9-5 Fim, 可 以 查看 之 前 记录 的 各 个 神经 网 络 层 
输出 的 分 布 , 包括 在 激活 函数 前 的 结果 及 在 激活 函数 后 的 结果 。 这 样 能 观察 到 神经 网 络 节 
点 的 输出 是 否 有 效 ， 会 不 会 存在 过 多 的 被 屏蔽 的 节点 (dead neurons )。 


A 241 A 
ww ai bbt. com TUOHOF0O0 0 





=f TensorFlow 实战 








PRIME & Toe 19 Owai & 1G row Se laror] 
G Split on underscores amn [ix plus p/pre_aciivations ye Se pie io aoti layerl/activations 
tect tren test 
GEN | nU; i 
Hoizama' Axis ay $ 
a ve e g arr aes ory, Ta 
A pV + a: 
ol H 


Se AE E E 
~ 一 -二 


AA 





Runs CD UC AS GCL auto TO De SUS ES BS AMS 1.00 dU MS MMS Det Her 120. 
Yane ciee to tr pe r 
{ZO wn en ee ee layer) /biases/summiartes/hisiogram 
f ten tesi ran 
Fo van 
HE : 
ve $ 
ug i 
AD 
Kar i : > > TO i 
Sasa ors Ease : 
wt pa a 二 rvs TARE 
COM 2000 <u Gor ste 14 KC wus wes 长 sa OO HO: or 0 LS 


9-5 TensorBoard DISTRIBUTIONS 变量 分 布展 示 效 果 


也 可 以 将 DISTRIBUTIONS 的 图 示 结 构 转 为 直方 图 的 形式 。 单 击 HISTOGRAMS 窗 
O, 如 图 9-6 所 示 , 可 以 将 每 一 步 训 练 后 的 神经 网 络 层 的 输出 的 分 布 以 直方 图 的 形式 展示 
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图 9-6 TensorBoard HISTOGRAMS 直方 图 的 展示 效果 


单 击 EMBEDDINGS 窗口 ,如 图 9-7 所 示 , 可 以 看 到 降 维 后 的 嵌入 向 量 的 可 视 化 效果 ， 
这 是 TensorBoard 中 的 Embedding Projector 功能 。 虽然 在 MNIST 数据 的 训练 中 是 没有 上风 
入 向 量 的 ， 但 是 只 要 我 们 使 用 tf.save.Saver 保存 了 整个 模型 ， 就 可 以 让 TensorBoard 目 动 
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对 模型 中 所 有 二 维 的 Variable 进行 可 视 化 (TensorFlow 中 只 有 Variable 可 以 被 保存 ， 而 
Tensor 不 可 以 ， 因 此 我 们 需要 把 想 可 视 化 的 Tensor 转 为 Variable )。 我 们 可 以 选择 T-SNE 
或 者 PCA 等 算法 对 数据 的 列 ( 特征) 进行 降 维 , 并 在 3D 或 者 2D 的 坐标 中 进行 可 视 化 展 
示 。 如 果 我 们 的 模型 是 Word2Vec 计算 或 Language Model ， 那 么 TensorBoard 的 
EMEBEDDINGS 可 视 化 功能 会 变 得 非常 有 用 。 
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92 多 GPU 并 行 


TensorFlow 中 的 并 行 主 要 分 为 模型 并 行 和 数据 并 行 。 模 型 并 行 需 要 根据 不 同 模型 设 
计 不 同 的 并 行 方式 , 其 主要 原理 是 将 模型 中 不 同 计 算 广 点 放 在 不 同 硬 件 资源 上 运算 。 比较 
通用 的 且 能 简便 地 实现 大 规模 并 行 的 方式 是 数据 并 行 , 其 思路 我 们 在 第 1 章 讲解 过 , 是 同 
时 使 用 多 个 硬件 资源 来 计算 不 同 batch 的 数据 的 梯度 ,然后 汇总 梯度 进行 全 局 的 参数 更 新 。 


数据 并 行 几乎 适用 于 所 有 深度 学 习 模 型 ， 我 们 总 是 可 以 利用 多 块 GPU 同时 训练 多 个 
batch 数据 , 运行 在 每 块 GPU 上 的 模型 都 基于 同一 个 神经 网 络 , 网络 结构 完全 一 样 , 并且 
共享 模型 参数 。 本 节 我 们 主要 讲解 同步 的 数据 并 行 , 即 等 待 所 有 GPU 都 计算 完 一 个 batch 
数据 的 梯度 后 , 再 统一 将 多 个 梯度 合 在 一 起 , 并 更 新 共享 的 模型 参数 , 这 种 方法 类 似 于 使 
用 了 一 个 较 大 的 batch。 使 用 数据 并 行 时 ，GPU 的 型 号 、 速 度 最 好 一 致 ， 这 样 效率 最 高 。 
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而 异步 的 数据 并 行 ， 则 不 等 待 所有 GPU 都 完成 一 次 训练 ， 而 是 哪个 GPU 完成 了 训练 ， 
就 立即 将 梯度 更 新 到 共 宇 的 模型 参数 中 。 通常 来 说 , 同步 的 数据 并 行 比 异 步 的 模式 收敛 速 
度 更 快 ， 模 型 的 精度 更 高 。 


下 面 就 讲解 使 用 多 GPU 的 同步 数据 并 行 来 训练 卷 积 神经 网 络 的 例子 ， 使 用 的 数据 集 
为 CIFAR-10。 首 先 载 入 各 种 依赖 的 库 ， 其 中 包括 TensorFlow Models 中 cifar10 的 类 (我 
们 在 第 5 章 下 载 了 这 个 库 , 现在 只 要 确保 Python 执行 路 径 在 models/tutorials/image/cifar10 
下 即 可 )， 它 可 以 下 载 CIFAR-10 数据 并 进行 一 些 数据 预 处 理 。 本 节 我 们 不 再 重头 设计 一 
个 CNN ,而 是 直接 使 用 一 个 现成 的 CNN ,并 侧重 于 讲解 如 何 使 用 数据 并 行 训 练 这 个 CNN. 
本 节 代 码 主 要 来 自 TensorFlow 的 开源 实现 ”。 


import os.path 

import re 

import time 

import numpy as np 
import tensorflow as tf 


import cifar16 


我 们 设置 batch 大 小 为 128， 最 大 步 数 为 100 DA (中 间 可 以 随时 停止 ， 模 型 定期 保 
存 )， 使 用 的 GPU 数量 为 4( 取决 于 当前 机 器 上 有 多 少 可 用 显卡 )。 
batch size=128 
max_steps=1080000 


num_gpus=4 


然后 定义 计算 损失 的 函数 tower loss。 我 们 先 使 用 cifarl0.distorted_inputs 产生 数据 增 
强 后 的 images 和 labels， 并 调用 cifarl0.inference 生成 卷 积 网 络 (注意 ， 我 们 需要 为 每 个 
GPU 生成 单独 的 网 络 ， 这 些 网 络 的 结构 完全 一 致 ， 并 且 共 享 模型 参数 )。 通 过 
cifarl0.inference 生成 的 卷 积 网 络 和 5.3 节 中 的 卷 积 网 络 一 致 , 读者 若 想 了 解 网 络 结构 的 具 
体 细节 ， 可 参考 5.3 节 中 的 内 容 。 然 后 ， 根 据 卷 积 网 络 和 labels， 调 用 cifarl0.loss 计算 损 
失 函 数 ( 这 里 不 直接 返回 loss ,而 是 储存 到 collection 中 ), HH tf.get_collection(‘losses',scope) 
获取 当前 这 个 GPU 上 的 loss( 通过 scope 限定 了 范围 )， 再 使 用 萎 add_n 将 所 有 损失 番 加 
到 一 起 得 到 total loss。 最 后 返回 total loss 作为 函数 结果 。 


def tower_loss(scope): 
images, labels = cifar1@.distorted_inputs() 
b 244 á 
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logits = cifar16.inference(images ) 

_ = Cifari@.loss(logits, labels) 

losses = tf.get_collection('losses', scope) 
total_loss = tf.add_n(losses, name='total_loss') 


return total loss 


下 面 定义 函数 average_gradients， 它 负责 将 不 同 GPU 计算 出 的 梯度 进行 合成 。 函 数 
的 输入 参数 tower_grads 是 梯度 的 双 层 列表 , 外 层 列表 是 不 同 GPU 计算 得 到 的 梯度 , AE 
列表 是 某 个 GPU 内 计算 的 不 同 Variable 对 应 的 梯度 ， 最 内 层 元 素 为 (grads，variable)， 妈 
tower_grads 的 基本 元 素 为 二 元 组 (梯度 , 变量 )。 其 具体 形式 为 [[(grad0 gpu0, var0 gpu0)， 
(gradl gpu0, varl gpu0),...],[ (grad0 gpul, var0 gpul), (gradl gpul, varl gpul),...],...]。 
我 们 先 创建 平均 梯度 的 列表 average grads， 它 负责 将 梯度 在 不 同 GPU 间 进 行 平均 。 然 后 
使 用 zip(*tower_grads) 将 这 个 双 层 列表 转 置 , 变 成 [[(grad0_gpu0, var0_gpu0), (grad0 gpul, 
var0 gpul),...],[ (gradl gpu0, varl_gpu0), (gradl gpul, varl_gpul)....],...J 2st, ARE 
用 循环 遍历 其 元 率 。 每 个 循环 中 获取 的 元 素 grad and vars, 是 同一 个 Variable 的 梯度 在 不 
[a] GPU 上 的 计算 结果 , 即 [(grad0 gpu0, var0_gpu0), (grad0 gpul, varO gpul),...]o 对 同一 
个 Variable 的 梯度 在 不 同 GPU 计算 出 的 副本 ， 需 要 计算 其 梯度 的 均值 ， 如 果 这 个 梯度 是 
一 个 NN 维 的 向 量 , 需要 在 每 个 维度 上 都 进行 平均 。 我 们 先 使 用 tf.expand_dims 给 这 些 梯度 
六 加 一 个 风 余 的 维度 0, 然后 把 这 些 梯度 放 到 列表 grad H, 接着 使 用 thconcat 将 它们 在 维 
度 0 上 合并 ,最 后 使 用 给 reduce_mean 针对 维度 0 上 求 平均 ， 即 将 其 他 维度 全 部 平均 。 最 
后 将 平均 后 的 梯度 跟 Variable 组 合 得 到 原 有 的 二 元 组 ( 梯度 , 变量 ) 格式 ， 并 添加 到 列表 
average_grads 中 。 当 所 有 梯度 都 求 完 均值 后 ， 我 们 返回 average grads, 


def average gradients(tower grads): 
average grads = [] 
for grad and vars in zip(*tower grads): 
grads = [ ] 


for g, _ in grad_and_vars: 


expanded_g = tf.expand dims(g, 9) 
grads.append(expanded_ g) 


grad = tf.concat(grads, 9) 
grad = tf.reduce mean(grad, 8) 
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v = grad_and_vars[@][1] 
grad_and_var = (grad, v) 
average _grads.append(grad_and_var) 


return average grads 


下 面 定 义 训练 的 函数 。 先 设置 默认 的 计算 设备 为 CPU， 用 来 进行 一 些 简单 的 计算 。 
然后 使 用 global_step 记录 全 局 训练 的 步 数 ， 并 计算 一 个 epoch 对 应 的 batch 数 ， 以 及 学 习 
速率 衰减 需要 的 步 数 decay_steps。 我 们 使 用 给 train.exponential decay OEV AHAA 
减 的 学 习 速 率 ， 这 里 第 1 个 参数 为 初始 学 习 速 率 ， 第 2 个 参数 为 全 局 训练 的 步 数 ， 第 3 
个 参数 为 每 次 衰减 需要 的 步 数 ， 第 4 个 参数 为 衰减 率 ，staircase 设 为 True 代表 是 阶梯 式 
的 衰减 。 然 后 设置 优化 算法 为 GradientDescent， 并 传 入 随 步 数 豪 减 的 学 习 速 率 。 
def train(): 

with tf.Graph().as_default(), tf.device('/cpu:9'): 

global_step = tf.get_variable('global_ step’, [], 

initializer=tf.constant_initializer(@), 


trainable=False) 


num_batches_per_epoch = cifar1@.NUM_EXAMPLES PER_EPOCH_FOR_TRAIN / \ 
| batch_size 


decay_steps = int(num_batches_per_epoch * cifar10.NUM_EPOCHS_PER_DECAY) 


lr = tf.train.exponential_decay(cifar10.INITIAL_LEARNING_RATE, 
global_step, an 
decay_steps, 
cifar1e. LEARNING RATE DECAY FACTOR, 


staircase=True) 


opt = tf.train.GradientDescentOptimizer(1r) 


我 们 定义 储存 各 GPU 计算 结果 的 列表 tower_grads。 然 后 创建 一 个 循环 ,循环 次 数 为 
GPU 数量 ， 在 每 一 个 循环 内 ， 使 用 给 device 限定 使 用 第 几 个 GPU， 如 gpu0、gpul， 然 后 
使 用 tf.name scope 将 命名 空间 定义 为 tower 0、tower 1 的 形式 。 对 每 一 个 GPU， 使 用 前 
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面 定 义 好 的 函数 tower loss 获取 其 损失 ， 然 后 调用 tf.get_variable_scope().reuse_variables() 
重用 参数 ,让 所 有 GPU 共用 一 个 模型 及 完全 相同 的 参数 。 再 使 用 opt.compute_gradients(loss) 
计算 单个 GPU 的 梯度 ,并 将 求 得 的 梯度 添加 到 梯度 列表 tower grads。 最 后 使 用 前 面 写 好 
的 函数 average gradients 计算 平均 梯度 ， 并 使 用 opt.apply_gradients 更 新 模型 参数 。 这 样 
就 完成 了 多 GPU 的 同步 训练 和 参数 更 新 。 


tower_grads = [ ] 
for i in range(num_gpus): 
with tf.device('/gpu:%d' % i): 
with tf.name_scope('%s %d’ % (cifari@.TOWER_NAME, i)) as scope: 
loss = tower_loss(scope) 
tf.get variable scope().reuse_variables() 
grads = opt.compute_gradients(loss) 


tower_grads.append(grads) 


grads = average gradients(tower_grads) 


apply_gradient_op = opt.apply_gradients(grads, global_step=global_step) 


我 们 创建 模型 的 保存 器 saver, 将 Session 的 allow_soft placement 参数 设置 为 True( 有 
些 操作 只 能 在 CPU 进行 ， 不 使 用 soft_placement 可 能 导致 运行 出 错 )， 初 始 化 全 部 参数 ， 
并 调用 tf.train.start_queue_runners() 准 备 好 大 量 的 数据 增强 后 的 训练 样本 ,防止 后 面 的 训练 
被 阻塞 在 生成 样本 上 。 


- Saver = tf.train.Saver(tf.all_variables()) 
init = tf.global_ variables initializer() 
sess = tf.Session(config=tf. NA soft pracen True) 
sess.run(init) ; 


tf. train. start, _queue_ runners(sess= sess) 


下 面 进入 训练 的 循环 ， 最 大 和 迭代 次 数 为 max_steps。 在 每 一 步 中 执行 一 次 更 新 梯度 的 
操作 apply_gradient op〈 即 一 次 训练 操作 ) 和 计算 损失 的 操作 loss， 同 时 使 用 time.time() 
记录 耗 时 。 每 隔 10 步 ， 展 示 一 次 当前 batch 的 loss， 以 及 每 秒 钟 可 训练 的 样本 数 和 每 个 
batch 训练 所 需要 花费 的 时 间 。 每 隔 1000 步 ， 使 用 Saver 保存 整个 模型 文件 。 


for step in range(max_ steps): 
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start_time = time.time() | 
. | 
_, loss value = sess.run([apply_gradient_op, loss]) 
ee 


duration = time.time() - start_time 


if step % 10 == @: 
num examples per step = batch size * num_gpus 
examples per sec = num examples per step / duration 


sec per batch = duration / num gpus 





format str = (‘step %d, loss = %.2f (%.1f examples/sec; %.3f ' 
"sec/batch)") 
print (format_str % (step, loss value, examples _per_sec, 


sec per batch)) 





if step % 1000 == 8 or (step + 1) == max_steps: 


saver.save(sess, ‘/tmp/cifari@ train/model.ckpt’, global_step=step) 





我 们 将 主 函 数 后 全 部 定义 完 后 ， 使 用 cifarl0.maybe download and_extract() 下载 完 整 
的 CIFAR-10 数据 ， 并 调用 train(0) 函 数 开 始 训练 。 


cifari@.maybe_download_and_extract() 


train() 





下 面 展示 的 结果 即 为 训练 过 程 中 显示 的 日 志 ，loss 从 最 开始 的 4 点 几 ， 到 第 70 万 步 
时 ， 大 致 降 到 了 0.07。 我 们 的 训练 速度 很 快 ， 平 均 每 个 batch 的 耗 时 仅 为 0.021s， 平 均 每 
秒 可 以 训练 6000 个 样本 ， 差 不 多 正好 是 单 GPU 的 4 倍 。 因 此 在 单机 多 GPU 的 情况 下 ， 
使 用 TensorFlow 实现 的 数据 并 行 效 率 是 非常 高 | . 
step 729470, loss = 
‘step 729488, loss = 


.07 (6043. examples/sec; 0.021 sec/batch) 
.07 (6200. 
.08 (6055.5 examples/sec; 0.021 sec/batch) 


4 
1 examples/sec; 0.021 sec/batch) 
5 
.09 (5986.7 examples/sec; 0.021 sec/batch) 
3 
1 
4 


step 729498, loss = 
step 729500, loss = 
step 729510, loss = 
step 729520, loss = 
step 729530, loss = 


.67 (6075. examples/sec; 0.021 sec/batch) 
.06 (6630. 


.69 (6788. 


examples/sec; 6.619 sec/batch) 


So oOo 9 9 989 DB OD 


examples/sec; 0.019 sec/batch) 
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step 729540, loss = 0.08 (6464.4 examples/sec; 0.020 sec/batch) 
step 729550, loss = 0.06 (6548.5 examples/sec; 0.020 sec/batch) 
step 729560, loss = 0.08 (6900.3 examples/sec; 0.019 sec/batch) 
step 729570, loss = 0.08 (6381.3 examples/sec; 6.626 sec/batch) 
step 729580, loss = 0.07 (6101.0 examples/sec; 0.021 sec/batch) 


93 ”分布 式 并 行 


TensorFlow 的 分 布 式 并 行 基于 gRPC 通信 框架 ,其 中 包括 一 个 master 负责 创建 Session， 
还 有 多 个 worker 负 责 执行 计算 图 中 的 任务 。 我 们 需要 先 创建 一 个 TensorFlow Cluster 对 象 ， 
它 包 含 了 一 组 task (每 个 task 一 般 是 一 台 单 独 的 机 器 ) 用 来 分 布 式 地 执行 TensorFlow 的 
计算 图 。 一 个 Cluster 可 以 切 分 为 多 个 job, 一 个 job 是 指 一 类 特定 的 任务 , 比如 parameter 
server (ps)、worker， 每 一 个 ai 里 可 以 包含 多 个 task。 我 们 需要 为 每 一 个 task 创建 一 个 
server， 然 后 连接 到 Cluster L, 通常 每 个 task 会 执行 在 不 同 的 机 侣 上 ， 当 然 也 可 以 一 台 机 
器 上 执行 多 个 task ( 控制 不 同 的 GPU )。Cluster 对 象 通 过 tf.train.ClusterSpec 来 初始 化 ， 
初始 化 信息 是 一 个 Python 的 dict, 例 如 tftrain.ClusterSpec({"ps": ["192.168.233.201:2222"], 
"worker":["192.168.233.202:2222","192.168.233.203:2222"]})， 这 代表 设置 了 一 个 parameter 
server 和 两 个 worker， 分 别 在 三 台 不 同 机 器 上 。 对 每 个 task, 我 们 需要 给 它 定 义 目 己 的 号 
份 ， 比 如 对 这 个 ps 我 们 将 设置 server = tf.train.Server(cluster, job _name="ps", 
task index=0)， 将 这 台 机 器 的 job HMDA ps, FFA ps 中 的 第 0 台 机 器 。 此 外 ， 通 过 在 
程序 中 使 用 诸如 with tf.device("/job:worker/task:7"), 可 以 限定 Variable 存放 在 哪个 task 或 
Malas _L 


TensorFlow 的 分 布 式 有 几 种 模式 ， 比 如 In-graph replication 模型 并 行 ， 将 模型 的 计算 
图 的 不 同 部 分 放 在 不 同 机 器 上 执行 ; 而 Between-graph replication 则 是 数据 并 行 ， 每 台 
器 使 用 完全 相同 的 计算 图 ,但 是 计算 不 同 的 batch 数据 。 此 外 ,我 们 还 有 异步 并 行 和 同步 
并 行 ， 异 步 并 行 指 每 机 器 独立 计算 梯度 ， 一 旦 计算 完 就 更 新 到 parameter server 中 ， 不 等 
其 他 机 器 ; 同步 并 行 指 等 所 有 机 器 都 完成 对 梯度 的 计算 后 , 将 多 个 梯度 合成 并 统一 更 新 模 
型 参数 。 一 般 来 说 ， 同 步 并 行 训 练 时 ，loss 下 降 的 速度 更 快 ， 可 达到 的 最 大 精度 更 高 , 但 
是 同步 并 行 有 木 桶 效应 ,速度 取决 于 最 慢 的 那个 机 融 , 所 以 当 设 备 速度 一 致 时 ,效率 比较 


一 一 
i=) 


=E] o 
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下 面 我 们 融 用 TensorFlow 实现 包含 1 个 paramter server 和 2 个 worker 的 分 布 式 并 行 
训练 程序 ,并 以 MNIST 手 写 数 据 识 别 任 务 作为 示例 。 这 里 需要 写 一 个 完整 的 Python 文件 ， 
-并 在 不 同 机 器 上 以 不 同 的 task 执行 。 首 先 载 入 TensorFlow 和 所 有 依赖 库 。 本 节 代 码 主要 

来 自 TensorFlow 的 开源 实现 “。 


import math 

import tempfile 

import time 

import tensorflow as tf 


from tensorflow.examples.tutorials.mnist import input data 


这 里 使 用 tfapp.flags 定义 标记 ， 用 以 在 命令 行 执行 TensorFlow 程序 时 设置 参数 。 在 
命令 行 中 指定 的 参数 会 被 TensorFlow 读 取 , 并 直接 转 为 flags。 设 定数 据 储 存 目录 data_dir 
默认 为 /tmp/mnist-data ,隐藏 节点 数 默认 为 100, 训练 最 大 步 数 train_ steps 默认 为 1000000， 
batch size 默认 为 100， 学 习 速 率 为 默认 0.01。 


flags = tf.app.flags 
flags .DEFINE string("data dir", "/tmp/mnist-data”, 
: “Directory for storing mnist data”) 
flags .DEFINE integer("hidden_ units", 106, 
| “Number of units in the hidden layer of the NN") 
flags.DEFINE integer("train_steps", 1000000, 
2 : "Number of (global) training steps to perform") 
flags .DEFINE_integer("batch_size", 108, “Training batch size") 
flaps DEFINE float(* learning rate", 0.01, “Learning rate”) 


然后 设 定 是 否 使 用 同步 并 行 的 标记 sync replicas 默认 为 False， 在 命令 行 执行 时 可 以 
WA True 开局 同步 并 行 。 同 时 ， 设 定 需 要 累计 多 少 个 梯度 来 更 新 模型 的 值 默认 为 None， 
这 个 参数 代表 进行 同步 并 行 时 ， 一 共 积 搬 多 少 个 batch 的 梯度 才 进 行 一 次 参数 更 新 ， 设 为 
None 则 使 用 worker 的 数量 ， 即 所 有 worker 都 完成 一 个 batch 的 训练 后 再 更 新 模型 参数 。 


flags.DEFINE boolean("sync replicas", False, 


"Use the sync_replicas (synchronized replicas) mode, 


"wherein the parameter updates from workers are 


“aggregated before applied to avoid stale gradients") 
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flags .DEFINE eK rpa to_aggregate", None, 
“Number of replicas to aggregate before parameter " 
“update is applied (For sync_replicas mode only; " 


“default: num_workers)") 


再 定义 ps 的 地 址 ， 这 里 默认 为 192.168.233.201:2222， 读 者 应 该 根据 集群 的 实际 情况 
配置 ， 下 同 。 将 worker 的 地 址 设置 为 192.168.233.202:2222 和 192.168.233.203:2222. fal 
时 , 设置 job name 和 task index 的 FLAG, 这 样 在 命令 行 执行 时 , 可 以 输入 这 两 个 参数 。 


flags.DEFINE string("ps_ hosts”, "192.168.233.201:2222", 
7 "Comma-separated list of hostname:port pairs") 
flags .DEFINE string("worker_hosts”, 
19231687 233720232222 5 192.:168. 233..20332222-". 
“Comma-separated list of hostname:port pairs") 
flags.DEFINE_string("job_name”, None,"job name: worker or ps") 
flags.DEFINE_integer("task_index”, None, 
; "Worker task index, should be >= 6. task_index=0 is " 
"the master worker task the performs the variable " 


"initialization ") 


将 flags. FLAGS 直接 命名 为 FLAGS , 简化 使 用 。 同 时 , 设置 图 片 尺 寸 IMAGE PIXELS 
FJ 28. 


FLAGS = flags.FLAGS 
IMAGE. _PIXELS = 28 


接 下 来 编写 程序 的 主 函 数 main ,首先 使 用 input data.read_data sets 下 载 并 读 取 MNIST 
数据 集 ， 并 设置 为 one_hot 编码 格式 。 同 时 ， 检 测 命令 行 输入 的 参数 ， 确 保有 job_name 
和 task index 这 两 个 必 备 的 参数 。 显 示 出 job name fil task index， 并 将 ps 和 worker 的 所 
有 地 址 解析 成 列表 ps_spec 和 worker spec。 


def main(unused _argv): 


mnist = input_ SENSE, read_ data OS (FLAGS. ett, AS one_hot=True) : 


if FLAGS. job name is None or FLAGS.job_name == 0": 


: raise ValueError ("Must specify an explicit `job_name`") 
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if FLAGS.task_index is None or FLAGS.task_index =="": 


raise ValueError("Must specify an explicit ‘task index ") 


print("job name = %s" % FLAGS.job_name) 
print("“task index = %d" % FLAGS.task_index) 


ps_ spec = FLAGS.ps_hosts.split(",") 


worker_spec = FLAGS.worker_hosts.split(",") 


先 计 算 总 共 的 worker 数量 ,然后 使 用 tf.train.ClusterSpec 生成 一 个 TensorFlow Cluster 
的 对 象 , 传 入 的 参数 是 ps 的 地 址 信息 和 worker 的 地 址 信息 。 册 使 用 tfhtrain.Server 创建 当 
HUDLASHY server， 用 以 连接 到 Cluster。 如 果 当 前 节点 是 parameter server， 则 不 冉 进 行 后 
续 的 操作 ， 而 是 使 用 serverjoin 等 待 worker 工作 。 


num_workers = len(worker_spec) 
cluster = tf.train.ClusterSpec({"ps": ps spec, "worker": worker_spec}) 
server = tf.train.Server( 
cluster, job _name=FLAGS.job_name, task _index=FLAGS.task_index) 
if FLAGS.job_name == "ps": 


server. join() 


这 里 判断 当前 机 器 是 否 为 主 节点 ， 即 task index 是 否 为 0。 然 后 定义 当前 机 器 的 
worker device， 格 式 为 "job:workertask:0/gpu:0"。 我 们 假定 有 两 台 机 絮 ， 并 且 每 台 机 器 有 
1 块 GPU， 则 总 共 需 要 两 个 worker。 如 果 一 台 机 器 有 多 块 GPU， 可 以 通过 一 个 task 管理 
多 个 GPU 或 者 使 用 多 个 task 分 别管 理 。 下 面 使 用 给 train.replica device_ setter() 设 置 worker 
的 资源 ， 其 中 worker_device 为 计算 资源 ，ps_device 为 存储 模型 参数 的 资源 。 我 们 通过 
replica device setter 将 模型 参数 部 署 在 独立 的 ps 服务 器 “/job:ps/cpu:0”, 并 将 训练 操作 部 
署 在 job:workertask:0/gpu:0"， 即 本 机 的 GPU。 最 后 再 创建 记录 全 局 训练 步 数 的 变量 
global step。 

is chief = (FLAGS.task_index == @) 

worker_device = "/job:worker/task:%d/gpu:@" % FLAGS.task_index 

with tf.device( i 
tf.train.replica_device_setter( 


worker_device=worker_device, 
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ps_device="/job:ps/cpu:0", 
cluster=cluster)): 


global_step = tf.Variable(@, name="global_step", trainable= False) 


接 下 来 ,定义 神经 网 络 模型 , 本 节 的 神经 网 络 和 4.4 节 的 MLP 全 连接 网 络 基本 一 致 。 
下 面 使 用 葵 truncated normal 初始 化 权重 ,使 用 共 zeros 初始 化 偏 置 , 创 建 输入 的 placeholder, 
并 使 用 tf.nn.xw_plus_b 对 输入 x 进行 矩阵 乘法 和 加 偏 置 操作 ， 再 用 ReLU 激活 函数 处 理 ， 
得 到 第 一 个 隐 层 的 输出 hids 然后 使 用 tf.nn.xw_plus_b 和 tf.nn.softmax 对 第 一 层 的 输出 hid 
进行 处 理 , 得 到 网 络 的 最 终 输 出 yo 最 后 计算 损失 cross_entropy, 并 定义 优化 器 为 Adam。 

hid_w = tf.Variable( 

tf.truncated_normal([IMAGE_PIXELS*IMAGE_PIXELS, FLAGS.hidden_units], 
stddev=1.@ / IMAGE PIXELS), name="hid w") 
hid b = tf.Variable(tf.zeros([FLAGS.hidden_units]), name= "hid_b") 


sm w = tf.Variable( 
tf.truncated_normal([FLAGS.hidden_units, 10], 
stddev=1.0 / math.sqrt(FLAGS.hidden_units)), name="sm_w" ) 
sm b = tf.Variable(tf.zeros([10]), name="sm_b") 


x = tf.placeholder(tf.float32, [None, IMAGE_PIXELS * IMAGE_PIXELS]) 
y_ = tf.placeholder(tf.float32, [None, 10]) 


hid lin = tf.nn.xw_plus_b(x, hid_w, hid_b) 
hid = tf.nn.relu(hid_lin) 


y= tf.nn.softmax(tf.nn.xw_plus_b(hid, sm_w, sm b)) $ 
cross entropy = -tf.reduce_sum(y_ * tf.log(tf.clip_by_value(y, 1e-10, 
1.0))) 


opt = tf.train.AdamOptimizer(FLAGS. learning rate) 


我 们 判断 是 否 设置 了 同步 训练 模式 sync_replicas， 如 果 是 同步 模式 ， 则 先 获 取 同 步 更 
新 模型 参数 所 需要 的 副本 数 replicas to_aggregate; 如 果 没 有 单独 设置 ， 则 使 用 worker 数 
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作为 默认 值 。 然 后 使 用 tf.train.SyncReplicasOptimizer 创建 同步 训练 的 优化 器 , 它 实 质 上 是 

对 原 有 优化 器 的 一 个 扩展 ， 我 们 传 入 原 有 优化 器 及 其 他 参数 ( replicas to_aggregate 、 

total num replicas, replica id 等 )， 它 融会 将 原 有 优化 器 改造 为 同步 的 分 布 式 训练 版 本 。 
最 后 ， 使 用 普通 的 ( 即 异 步 的 ) 或 同步 的 优化 器 对 损失 cross_entropy 进行 优化 。 


if FLAGS.sync_replicas: 
if FLAGS.replicas to aggregate is None: 
replicas to aggregate = num_workers 
else: 


replicas to aggregate = FLAGS.replicas to aggregate 


Op EnS tf.train.SyncReplicasOptimizer( 
opt, 
replicas to_aggregate=replicas to aggregate, 
total _num_replicas=num workers, 
replica_id=FLAGS.task_index, 


name="mnist sync replicas") 


train_step = opt. -minimize(cross. “entropy, global_ step= ‘global _ step) 


如 果 是 同步 训练 模式 ， 并 且 为 主 节点 ， 则 使 用 opt.get_chief queue_runner 创建 队列 执 
{Tas, JEH opt.get_init_tokens_op 创建 全 局 参数 初始 化 器 
if FLAGS.sync_replicas and is_chief: 
chief_queue_runner = opt.get_chief_queue_runner() 


init_tokens_op = opt.get_init_tokens_op() 、 


liaanid init op ， 创 建 临 时 的 训练 目录 ， 并 使 用 
tf.train_Supervisor 创建 分 布 式 训练 的 监督 器 ， 传 入 的 参数 包括 is_chief, train dir, init_op 
等 。 这 个 Supervisor 会 管理 我 们 的 task aaa 分 布 


init Sone tf. global_ variables _initializer() 
train_ dir = tempfile. mkdtemp() 
eae train. Supervisor (is_ chief=is “chief; 
logdir=train_ dir, 


init_op=init_op, 
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recovery_wait_secs=1, 


global_ step= global_ step) 


然后 设置 Session 的 参数 ， 其 中 allow soft placement 设 为 True 代表 当 某 个 操作 在 指 
定 的 device 不 能 执行 时 ， 可 以 转 到 其 他 device 执行 。 


sess config = tf.ConfigProto( 
allow_soft_placement=True, 
log _device_placement=False, 
device filters=["/job:ps", 
"/job:worker/task:%d" % FLAGS.task_index]) 


如 果 为 主 节点 ， 则 显示 初始化 Session, 其 他 市 点 则 显 示 等 待 主 市 点 的 初始 化 操作 。 
然后 执行 sv.prepate_or_wait_for_session(), 若 为 主 节点 则 会 创建 Session, 若 为 分 支 节 点 则 
会 等 待 。 

if is_chief: 

print("Worker %d: Initializing session..." % FLAGS. task index) 
else: | 

- print (“Worker #d: Waiting for session to be initialized..." % 7 


FLAGS .task_index) 
sess = sv.prepare_or_wait_for_session(server.target, config=sess_ config) 


print("Worker %d: Session initialization complete." % FLAGS. task index) 


接着 ， 如 果 处 于 同步 模式 并 且 是 主 节点 ， 则 调用 sv.start_queue_runners 执行 队列 化 执 
行 器 chief queue runner， 并 执行 全 局 的 参数 初始 化 器 init_tokens_ op. 


if FLAGS. sync_ replicas and is- chief: 
print("Starting chief queue runner and running init, _tokens _op") | 
SV. start _queue_runners(sess, [chief queue runner ]) 


‘sess. run(init_tokens_op) 


下 面 就 正式 到 了 训练 过 程 。 我 们 记录 worker 执行 训练 的 启动 时 间 ， 初 始 化 本 地 训练 
的 步 数 local_step， 然 后 进入 训练 循环 。 在 每 一 步 训 练 中 ,我 们 从 mnist.train.next_batch 读 
取 一 个 batch 的 数据 ， 并 生成 feed dict， 再 调用 train step 执行 一 次 训练 。 当 全 局 训练 步 
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数 达 到 我 们 预 设 的 最 大 值 后 ， 停 止 训练 。 
time_begin = time.time() 


print("Training begins @ %f" % time_begin) 


local _ step = @ 
while True: 
batch_xs, batch_ys = mnist.train.next_batch(FLAGS.batch_size) 


train_feed = {x: batch_xs, y_: 


batch_ys} 


_, step = sess.run([train_step, global step], feed_dict=train_feed) 


local step += 1 


now = time.time() 
print("%F: Worker %d: training step %d done (global step: %d)" % 
(now, FLAGS.task_index, local_step, step)) 


if step >= FLAGS.train_steps: 


break 


训练 结束 后 ， 我 们 展示 总 训练 时 间 ， 并 在 验证 数据 上 计算 预测 结果 的 损失 
cross_entropy， 并 展示 出 来 。 至 此 ， 我 们 的 主 函 数 main 全 部 结束 。 


time_end = time.time() 
print("Training ends @ %f“ % time_end) 
training_time = time_end - time_begin 


print("Training elapsed time: %f s" % training time). 


val_feed = {x: mnist.validation.images, y_: mnist.validation. labels} 

val_xent = sess.run(cross entropy, feed dict=val feed) 

print("After %d training step(s), validation cross entropy = %g" % 
(FLAGS.train_steps, val_xent)) 


这 是 代码 的 最 后 一 部 分 ,在 主 程序 中 执行 给 app.run() 并 启动 mainh, 我 们 将 全 部 
代码 保存 为 文件 distributed.py。 我 们 需要 在 3 台 不 同 的 机 器 上 分 别 执行 distributed.py 局 动 
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3 个 task， 在 每 次 执行 distributed.py 时 我 们 需要 传 入 job name 和 task index 指定 worker 
Nat. 


tf.app.run() 


我 们 分 别 在 三 台 机 器 192.168.233.201, 192.168.233.202 和 192.168.233.203 上 执行 下 
面 三 行 代 码 。 第 一 台 机 器 执行 第 一 行 代码 ， 第 二 台 机 需 执行 第 二 行 代码 , 下 同 。 这 样 我 们 
就 在 三 台 机 器 上 分 别 启 动 了 一 个 parameter server 及 两 个 worker。 
python distributed.py --job name=ps --task_index=0 


python distributed.py --job_name=worker --task_index=0@ 


python distributed.py --job_name=worker --task_index=1 


COR TE west, Aa ee ERRED _L--sync_replicas=True, BLA VAR 
动 开启 同步 训练 。 注 意 ， 此 时 global step 和 异步 不 同 ， 异 步 时 ， 全 局 步 数 是 所 有 worker 
训练 步 数 之 和 ， 同 步 时 则 是 指 有 多 少 轮 并 行 训 练 。 


python distributed.py --job_name=ps --task_index=0 --sync_replicas=True 
python distributed.py --job_name=worker --task_index=@ --sync_replicas=True 


python distributed.py --job_name=worker --task_index=1 --sync_replicas=True 


下 面 是 我 们 在 parameter server 上 显示 出 的 日 志 。 我 们 在 192.168.233.201:2222 上 顺利 
开启 了 PS 的 服务 。 


I tensorflow/core/distributed runtime/rpc/grpc_channel.cc:197] Initialize Gr 
pcChannelCache for job ps -> {0 -> localhost:2222} 

I tensorflow/core/distributed runtime/rpc/grpc_channel.cc:197] Initialize Gr 
pcChannelCache for job worker ->.{@ -> 192.168.233.202:2223, 1 -> 192.168.23 
3.203:2224} | 

I tensorflow/core/distributed_runtime/rpc/grpc_server_lib.cc:206] Started se 


rver with target: grpc://localhost:2222 


下 面 是 worker0 4 192.168.233.202 上 的 训练 日 志 。 


1484195706.167773: Worker @: training step 5657 done (global step: 10285) 
1484195706.178822: Worker @: training step 5658 done (global step: 10287) 
1484195706.189648: Worker @: training step 5659 done (global step: 10289) 
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1484195706.200894: Worker @: training step 566@ done (global step: 10291) 
14841957906 .212560: Worker 6: training step 5661 done (global step: 10293) 
1484195706.224736: Worker ©: training step 5662 done (global step: 10295) 
1484195706.237565: Worker @: training step 5663 done (global step: 10297) 
1484195706.252718: Worker 6: training step 5664 done (global step: 10299) 
下 面 是 workerl 在 192.168.233.203 上 的 训练 日 志 。 
1484195714.332566: Worker 1: training step 5269 done (global step: 11569) 
1484195714.345961: Worker 1: training step 5270 done (global step: 11571) 
1484195714.359124: Worker 1: training step 5271 done (global step: 11573) 
1484195714. 372848: Worker 1: training step 5272 done (global step: 11575) 
1484195714.386048: Worker 1: training step 5273 done (global step: 11577) 
1484195714.398567: Worker 1: training step 5274 done (global step: 11579) 
1484195714.411631: Worker 1: training step 5275 done (global step: 11581) 
1484195714.424619: Worker 1: training step 5276 done (global step: 11583) 


至 此 ， 我 们 在 三 台 机 侨 上 的 数据 并 行 模式 的 分 布 式 训练 的 示例 就 结束 了 ， 读 者 可 以 看 
到 用 TensorFlow 实现 分 布 式 训练 非常 简单 。 我 们 可 以 复 用 单机 版 本 的 网 络 结构 ， 只 是 在 不 
同 机 右上 训练 不 同 batch 的 数据 ， 并 使 用 parameter server 统一 管理 模型 参数 。 另 外 ， 分 布 
式 TensorFlow 的 运行 效率 也 非常 高 , 在 16 台 机 器 上 可 以 获得 15 倍 于 单机 的 速度 ， 非 常 
适合 大 规模 神经 网 络 的 训练 。 
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TF.Learn 是 TensorFlow 中 的 一 个 很 重要 的 模块 ， 它 包括 各 种 类 型 的 深度 学 习 及 流行 
的 机 器 学 习 算法 。 这 个 模块 是 从 之 前 比较 热门 的 TensorFlow 官方 Scikit Flow 项 目 迁 移 过 
来 的 ， 发 起 者 是 谷歌 的 员工 Ilia Polosukhin 及 本 书 作者 之 一 唐 源 。 代 码 的 风格 采用 数据 
科学 界 比较 热门 的 Scikit-leam 风格 ， 旨 在 帮助 数据 科学 从 业者 更 好 、 更 快 地 适应 和 接受 
TensorFlow 的 代码 。 它 赛 括 了 许多 TensorFlow 的 代码 和 设计 模式 ， 从 而 使 用 户 能 够 更 快 
地 开始 搭建 自己 的 机 器 学 习 模型 来 实现 不 同 的 应 用 。 同 时 ,用 户 也 能 极 大 地 避免 代码 重复 ， 
更 好 地 把 精力 放 在 搭建 更 精确 的 模型 上 。 目 从 TensorFlow v0.9 版 本 发 布 之 后 ，TF.Learn 
能 够 无 颖 地 和 其 他 contrib 模块 结合 起 来 使 用 ， 比 如 contrib.losses 、contrib.layer 、 
contrib.metrics， 等 等 ( 我们 会 在 第 11 章 系 统 地 介绍 contrib 模块 )。 第 10 章 和 第 11 章 将 
使 用 TensorFlow 0.11.0-rc0 版 本 作为 示例 讲解 , 其 他 版 本 的 代码 可 能 会 出 现 不 兼容 的 现象。 


10.1 DDR Estimator 


ANDER TAA Estimator 的 分 布 式 特性 、 目 定义 模型 的 用 法 、Estimator 的 架构 ， 并 介 
绍 怎样 建立 自己 的 分 布 式 机 器 学 习 Estimator。 
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10.1.1 DER Estimator 自 定义 模型 介绍 


Estimator 包括 各 种 各 样 的 机 器 学 习 和 深度 学 习 的 类 ， 用 户 能 直接 使 用 这 些 高 阶 类 ， 
同时 可 以 根据 实际 的 应 用 需求 快速 创建 自己 的 子 类 。 有 了 graph actions 模块 的 帮助 ， 
Estimator 很 大 一 部 分 在 训练 和 评估 模型 时 需要 用 到 的 复杂 的 分 布 式 逻辑 都 被 实现 和 浓缩 ， 
使 用 者 就 不 再 需要 把 精力 放 在 很 复杂 的 Supervisor 和 Coordinator 分 布 式 训练 具体 实现 细 
Ae LH. 


Estimator 接受 自 定 义 模型 ， 目 前 它 接受 以 下 几 组 不 同 的 函数 签名 。 
(1) (features, targets) -> (predictions, loss, train_op) 
(2) (features, targets, mode) -> (predictions, loss, train_op) 


(3) (features, targets, mode, params) -> (predictions, loss, train_op) 
我 们 以 第 一 组 函数 签名 举例 说 明 ， 以 下 是 一 个 简单 的 目 定义 的 模型 。 
import tensorflow as tf 


from tensorflow.contrib import layers. 


from tensorflow.contrib import learn 


def my_model(features, target): 
target = tf.one_hot(target, 3, 1, 8) oe. 
features = layers.stack(features, layers.fully_connected, [10, 20, 10]) 
prediction, loss = | eo 7 | 
tf.contrib.learn.models.logistic_regression_zero_init(features, 
| | es target) 
train_op = tf.contrib.layers.optimize_loss( | 
loss, tf.contrib.framework.get global step(), optimizer='Adagrad', 
learning rate=0.1) 
return {‘class': tf.argmax(prediction, 1), ‘prob’: prediction}, loss, 


train_op 


这 个 自 定 义 模 型 接受 两 个 参数 : features 和 targets. features 是 数据 的 特征 ， targets 是 


Encoding), ， 让 接 下 来 损失 函数 的 计算 更 方便 。 接 下 来 ， 用 layers.stack AMA 
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layers.fully_connected 完全 连接 的 深度 神经 网 络 ， 每 一 层 分 别 有 10、20、10 个 隐藏 节点 ， 
通过 个 同 层 的 转换 和 训练 ， 得 到 新 的 数据 特征 。TF.Learn 里 面 的 models 模块 有 很 多 经 常 
使 用 的 模型 ( 比如 逻辑 回归 )， 这 里 我 们 用 models.logistic_regression zero init 加 一 层 ， 以 
0 作为 初始 参数 值 的 逻辑 回归 模型 ,这 也 是 深度 学 习 里 比较 常用 的 一 种 方法 ,从 而 得 到 最 
后 的 预测 值 和 损失 值 。 最 后 ,使 用 contrib.layers.optimize loss 函数 对 损失 值 进行 优化 ,可 
以 根据 需要 选择 不 同 的 优化 函数 和 学 习 率 ，optimize loss 会 得 到 一 个 训练 算 子 ( Training 
Operator )， 在 每 次 训练 迭代 时 会 被 用 来 优化 模型 的 参数 和 决定 模型 发 展 的 方向 。 这 个 自 
定义 模型 疯 数 需要 返回 一 些 要 求 的 值 , 比如 预测 值 及 预测 概率 、 损 失 值 和 训练 算 子 。 读 者 
可 以 比较 灵活 地 使 用 Python 的 字典 来 返回 预测 值 及 预测 概率 ， 也 可 以 只 返回 预测 值 和 预 
测 概率 中 的 一 个 ， 这 样 做 的 主要 目的 是 在 之 后 能 够 更 方便 地 使 用 estimator.predict 函数 。 


接 下 来 ， 我 们 把 定义 好 的 模型 运用 到 比较 前 用 的 iris 数据 进行 分 类 。 


from sklearn import datasets, cross_validation 


iris = datasets.load_ iris() 
x_train, x_test, y_train, y_test = cross validation.train_ test_split( 


iris.data, iris.target, test_size=@.2, random_state=35) 


classifier = learn.Estimator(model_fn=my_model) 


classifier.fit(x_train, y_train, steps=70@) 


predictions = classifier.predict(x_ test) 


我 们 利用 Scikit-learn 的 datasets 引入 数据 ,并 用 cross validation 把 数据 分 为 训练 和 评 
估 。 接 下 来 把 我 们 定义 好 的 my_model 直接 放 进 learn.Estimator 就 可 以 使 用 Scikit-learn 风 
格 的 fit 和 predict 国 数 。 通 过 快速 和 简单 地 定义 目 己 的 模型 函数 ， 能 直接 利用 Estimator 
的 各 种 功能 ， 也 能 够 直接 进行 分 布 式 模型 训练 ， 完 全 不 用 担心 许多 实现 的 细节 [比如 不 同 
的 线程 之 间 的 交流 和 主 监督 ( Master Supervisor ) 的 建立 ]。 

目前 我 们 只 介绍 了 其 中 一 种 目 定 义 了 水 数 签名 ， 其 他 的 水 数 签名 大 同 小 异 。 简 单 来 说 ， 
模式 ( Mode ) 以 被 用 来 定义 函数 的 使 用 阶段 ,例如 training, evaluation JAR prediction. 
这 些 常用 的 模式 可 以 在 ModeKeys 里 面 找 到 。 一 些 比 较 复 杂 的 深度 学 习 模 型 可 能 会 包含 一 
些 特殊 的 层 ， 例 如 batch normalization 层 要 求 一 些 计算 只 发 生 在 训练 期 间 ， 而 评估 期 间 需 
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params 是 可 以 由 自 定 义 模 型 来 调节 的 参数 ， 读 者 使 用 fit 函数 时 可 以 给 更 多 的 参数 。 有 具体 
细节 请 参考 TF.Learn 的 官方 文档 。 


10.1.2 ”建立 自己 的 机 器 学 习 Estimator 


10.1.1 节 我 们 简单 介绍 了 怎样 用 目 定 义 的 模型 使 用 Estimator， 接 下 来 ， 我 们 来 了 解 
Estimator 的 一 些 基 本 架构 及 如 何 通过 实现 目 己 的 Estimator 子 类 建立 自己 的 机 器 学 习 分 布 
式 Estimator, 


BaseEstimator 是 最 抽象 也 是 最 基本 的 实现 TensorFlow 模型 的 训练 和 评估 的 类 。 它 所 
供 了 许多 简单 易 用 的 功能 ， 比 如 用 ft0 对 模型 进行 训练 ， 用 partial_fit0) 进 行 线 上 训练 ， 用 
evaluate() 评 估 模 型 ， 用 predict() 使 用 模型 并 对 新 的 数据 进行 预测 ， 等 等 。 它 利用 了 许多 包 
AE graph_actions 里 很 复杂 的 逻辑 进行 模型 的 训练 和 预测 。 前 面 章 节 简 单 提 到 过 它 包 含 
了 许多 类 似 Supervisor, Coordinator, QueueRunner 的 使 用 ， 从 而 使 它 能 够 进行 分 布 式 地 
训练 和 预测 。 它 也 使 用 了 许多 learn.DataFeeder 或 者 learn.DataFrame 的 类 来 自动 识别 、 处 
理 和 和 迭代 不 用 类 型 的 数据 。 再 加 上 estimators.tensor_signature 的 帮助 对 数据 进行 兼容 性 的 
Fl) BEG MOGs (Sparse Tensor) ]， 使 数据 的 读 入 更 加 方便 和 稳定 。 与 此 同时 ， 
BaseEstimator 也 对 learn.monitors 及 模型 的 存储 等 进行 了 初始 化 设置 。learn.monitors 是 用 
来 监测 模型 的 训练 的 ， 在 接 下 来 的 章节 里 我 们 也 会 对 它 进 行 简单 的 介绍 。 


虽然 BaseEstimator 已 经 提供 了 大 多 数 建 立 和 评估 模型 要 求 的 逻辑 ， 但 它 却 把 
_get train ops()、_get eval opsO0 和 get predict ops() 等 实现 留 给 了 它 的 子 类 ， 从 而 让 它 的 
子 类 能 够 更 自由 地 实现 自 定义 的 一 些 逻 辑 处 理 。10.1.1 节 中 我 们 使 用 到 的 Estimator 刚好 
提供 了 怎样 实现 BaseEstimator 那些 未 实现 方法 的 样本 。 


我 们 以 Estimator 为 例 , CHI get train ops0 接 受 features 和 targets 为 参数 , HABE 
义 的 模型 函数 返回 一 个 Operation 和 损失 Tensor 的 Tuple， 这 个 函数 会 被 用 来 在 每 个 训练 
迭代 时 对 模型 的 参数 进行 优化 。 如 果 想 实现 自己 的 Estimator， 你 有 绝对 的 目 由 来 决定 训 
练 的 逻辑 。 例 如 ， 如 果 想 实现 一 个 非 监 督学 习 模 型 的 Estimator， 那 么 可 以 在 这 个 函数 里 
对 targets 进行 忽略 。 


和 get train ops() 类 似 ， get eval ops(O 让 BaseEstimator 的 子 类 来 使 用 目 定 义 的 
metrics 评估 每 个 模型 训练 的 迭代 。 在 TensorFlow 高 阶 的 模块 里 ， 比 如 contrib.metrics， 可 
以 找到 许多 直接 使 用 的 metrics, 第 11 章 会 对 这 个 模块 进行 简单 的 介绍 。 目 定义 的 metrics 
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AAE RRE —A Tensor 对 象 的 Python 字典 来 代表 评估 Operation, 每 次 迭代 时 都 会 被 用 
到 。 以 下 是 Estimator 的 get train ops(O 的 实现 : 
predictions, loss, _ = self._call_model_fn(features, targets, ModeKeys.EVAL) 


result = { 1oss : contrib.metrics.streaming mean(loss) } 


先 用 到 自 定 义 的 模型 对 新 的 数据 进行 预测 和 计算 损失 值 , 用 ModeKeys 中 的 EVAL 表 
明 这 个 函数 只 会 在 评估 时 被 用 到 ， 然 后 用 到 了 contrib.metrics 模块 里 的 streaming mean 对 
loss 计算 平均 流 , 也 就 是 在 之 前 计算 过 的 平均 值 基础 上 加 上 这 次 迭代 的 损失 值 再 计算 平均 
值 。 


_get_predict_ops() 是 用 来 实现 目 定义 的 预测 的 ， 例 如 在 这 个 函数 里 可 以 对 预测 的 结果 
进行 进一步 的 处 理 。 册 比如 ， 把 预测 概率 转换 成 简单 的 预测 结果 ， 把 概率 进行 平滑 加 工 
(Smoothing )， 等 等 。 这 个 函数 需要 返回 一 个 Tensor WRAY Python 字典 来 代表 预测 
Operation。 一 旦 这 个 函数 被 实现 ， 就 可 以 很 轻松 地 使 用 Estimator 的 predictO 函 数 ， 充 分 
利用 Estimator 的 分 布 式 功 能 ， 完 全 不 用 担心 一 些 复杂 的 内 部 实现 逻辑 。 如 果 想 建立 非 监 
督 模 型 ， 也 可 以 很 快 地 在 这 个 基础 之 上 实现 一 个 类 似 Scikit-learn ŒH transformo AŽ 


在 TF.Learn 的 模块 里 也 可 以 找到 许多 目 定义 机 器 学 习 Estimator 的 例子 ,例如 人 逻辑 回 
归 ( LogisticRegressor ) 由 于 Estimator 已 经 提供 了 绝 大 部 分 需要 的 实现 , LogisticRegressor 
只 需要 提供 目 己 的 metrics (例如 AUC、accuracy、precision， 以 及 recall, 只 用 来 处 理 二 分 
类 的 问题 )， 所 以 可 以 很 快 地 在 LogisticRegressor 的 基础 上 写 一 个 子 类 来 实现 一 个 更 个 性 
化 的 二 分 类 的 Estimator， 完 全 不 需要 担心 其 他 逻辑 的 实现 。 

TF.Leam 里 的 随机 森林 模型 TensorForestEstimator 把 许多 很 细节 的 实现 放 到 了 
contrib.tensor forest 里 ， 只 利用 和 有 又 露 一 些 比较 高 阶 的 ， 需 要 用 到 的 成 分 到 
TensorForestEstimator 里 ， 这 样 用 户 就 能 更 轻松 地 使 用 这 个 高 阶 机 器 学 习 模块 。 下 面 的 代 
码 中 , 它 所 有 的 超 参 数 都 通过 contrib.tensor_forest.ForestHParams 被 传 到 构造 函数 的 paramas 
里 ， 然 后 在 构造 函数 里 使 用 params.fill0 建 造 随机 森林 的 TensorFlow 图 ， 也 就 是 


tensor forest.RandomForestGraphs。 


class TensorForestEstimator(estimator.BaseEstimator): 


"""An estimator that can train and evaluate a random forest.""" 


def _init__(self, params, device _assigner=None, model_dir=None, 
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graph_builder_class=tensor_forest.RandomForestGraphs, 
master='', accuracy_metric=None, 
tf_random_seed=None, config=None): 
self.params = params.fill() 
self.accuracy_metric = (accuracy_metric or 
('r2' if self.params.regression else 'accuracy')) 
self.data_feeder = None 
self.device_assigner = ( 
device assigner or tensor_forest.RandomForestDeviceAssigner() ) 
self.graph_builder_class = graph_builder class 
self.training args = {} 


self.construction_args = {} 


super(TensorForestEstimator, self). init __(model_dir=model dir, 


config=config) 


由 于 很 多 实现 太 复 洒 而 且 通 瘦 需 要 非常 有 效率 ， 它 的 很 多 细节 都 用 C++ 实现 了 单独 
的 Kernel. HY _get_predict_ops() 函数 首先 使 用 tensor forest 内 部 C++ 实现 的 
data_ops.ParseDataTensorOrDictO 函 数 检测 和 转换 读 入 的 数据 到 可 文 持 的 数据 类 型 ， 然 后 
利用 RandomForestGraphs 的 inference_graph 函数 得 到 预测 的 Operation. 


def _get_predict_ops(self, features): 
graph_builder = self.graph_builder_class( 
self.params, device_assigner=self.device_assigner, training=False, 
**self.construction_args) | | 
features, spec = data_ops.ParseDataTensorOrDict (features ) 
_assert_float32(features) | 3 


_ return graph_builder.inference_graph(features, data_spec= spec) 


类 似 地 ， 它 的 _get train ops() 和 _ get eval_ops() 国 数 分 别 调用 了 RandomForest 
Graphs.training loss() 和 RandomForestGraphs.inference graph) 国 数 ， 它 使 用 了 
data ops.ParseDataTensorOrDict 和 data_ops.ParseLabelTensorOrDict 分 别 检 测 和 转换 
features 和 targets 到 可 兼容 的 数据 类 型 。 


希望 以 上 关于 Estimator 架构 的 介绍 和 几 个 例子 能 够 帮助 读者 更 好 地 了 解 Estimator. 
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一 日 读者 建立 好 了 目 己 的 机 器 学 习 Estimator 或 者 准备 好 使 用 Estimator， 可 以 轻松 地 在 多 
台 机 器 上 、 多 个 服务 器 上 进行 分 布 式 的 模型 训练 ，10.1.3 节 会 介绍 RunConfig 来 帮助 读者 
更 好 地 调节 程序 运行 时 参数 。 


10.1.3 ”调节 RunConfig 运行 时 参数 


RunConfig 是 TF.Learm 里 的 一 个 类 ， 用 来 帮助 用 户 调节 程序 运行 时 参数 ， 例 如 用 
num cores 选择 使 用 的 核 的 数量 ， 用 num ps replicas 调节 参数 服务 器 的 数量 ， 用 
gpu_memory_fraction 控制 使 用 的 GPU 存储 的 百分比 ， 等 等 。 


值得 注意 的 是 ,RunConfig 里 master 这 个 参数 是 用 来 指定 训练 模型 的 主 服务 器 地 址 的 ， 
task 是 用 来 设置 任务 ID 的 , 每 个 任务 ID 控制 一 个 训练 模型 参数 服务 器 的 replica, 以 下 是 
一 个 例子 ， 读 者 可 以 先 初始 化 一 个 RuanConfig 对 象 ， 再 把 这 个 对 象 传 进 Estimator 里 。 


config = tf.contrib.learn.RunConfig(task=@, master="", 
gpu_memory_fraction=0.8) 


est = tf.contrib.learn.Estimator(model_fn=custom_model, config= config) 


以 上 例子 是 使 用 RunConfig 参数 的 默认 值 在 本 地 运行 一 个 简单 的 模型 , 只 使 用 一 个 任 
务 ID 和 80% 的 GPU 存储 作为 参数 传 进 Estimator 里 。 当 读者 运行 时 ， 这 些 运行 时 参数 会 
被 自动 运用 上 ， 不 用 担心 ConfigProto, GPUOptions 之 类 的 使 用 细节 。 读 者 可 以 快速 地 改 
变 这 些 参数 来 实现 分 布 式 模 型 的 训练 及 参数 服务 器 的 使 用 ，10.1.4 而 会 简单 介绍 。 注 意 ， 
这 些 API 未 来 会 有 改动 ， 所 以 最 新 的 使 用 方法 请 参考 TF.Leam 官方 文档 。 


10.1.4 Experiment 和 LearnRunner 


Experiment 是 一 个 简单 易 用 的 建立 模型 实验 的 类 ， 它 包含 了 建 模 所 需要 的 所 有 信息 ， 
例如 Estimator、 训 练 数据 、 评 估 数 据 、 评 估 指 标 、 监 督 器 、 评 估 频 率 ， 等 等 。 可 以 选择 
在 当地 运行 ， 也 可 以 和 RunConfig 配合 进行 分 布 式 地 试验 。LearnRunner 是 用 来 方便 做 实 
验 的 一 个 模块 。 接 下 来 我 们 举 个 简单 的 例子 说 明 。 


先 用 tf.app-flags 定义 一 些 可 以 从 命令 行 传 入 的 参数 , 例如 数据 、 模 型 、 输 出 文件 的 路 
径 、 训 练 和 评估 的 步 数 等 。 这 里 有 几 个 值得 注意 的 参数 。schedule 是 指 想 做 的 试验 类 型 ， 
比如 使 用 local run(0 在 当地 做 试验 ， 可 能 的 一 些 选 项 是 Experiment 里 面 的 一 些 函 数 名 字 ， 
例如 run_std_server0 可 以 在 标准 服务 器 上 做 试验 。master_grpc_url 是 主要 的 GRPC 
TensorFlow 服务 器 。num parameter servers 是 参数 服务 器 的 数量 ， 等 等 。 
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flags = tf.app.flags 
flags.DEFINE string("data dir", "/tmp/census-data", 
"Directory for storing the cesnsus data data") 
flags.DEFINE string("model dir", "/tmp/census_ wide and_deep model”, 
"Directory for storing the model”) 
flags.DEFINE string("output_dir”, "", "Base output directory.”) 
flags.DEFINE string("“schedule”", "local run", 
"Schedule to run for this experiment.” ) 
flags.DEFINE string("master_grpc_url", "", 
“URL to master GRPC tensorflow server, e.g.,” 
“erpc://127.0.0.1:2222") 
flags.DEFINE_integer("num_parameter_servers", 8, 
| "Number of parameter servers") 
flags.DEFINE_integer("worker_index", ©, "Worker index (>=0)") 
flags.DEFINE_integer("train_steps”", 1000, "Number of training steps”) 
flags DEFINE integer("eval steps", 1, “Number of evaluation steps") 


FLAGS = flags.FLAGS 


接 下 来 写 一 个 建立 Experiment 对 象 的 函数 ， 在 这 个 函数 里 首先 使 用 之 前 设置 好 的 一 
些 FLAGS 建立 好 RunConfig 及 想 要 建立 的 机 器 学 习 模 型 Estimator, 这 里 我 们 建立 广度 次 
度 结合 分 类 器 ( DNNLinearCombinedClassifier )。 注 意 ， 我 们 省 略 了 input train fn 和 
input_test_fn 的 定义 ， 这 两 个 方程 会 定义 数据 的 来 源 、 提 供 训练 ， 以 及 评估 所 用 的 数据 。 
我 们 在 接 下 来 的 机 器 学 习 Estimator 里 都 会 用 到 。 不 同 的 数据 有 不 同 的 导入 方法 ， 在 这 里 
我 们 就 不 详细 介绍 了 。 
def create experiment fn(output dir): ; 

config = run_config.RunConfig(master=FLAGS.master grpc url, 

num ps_replicas=FLAGS.num parameter servers, 


task=FLAGS .worker index) 


estimator = tf.contrib.learn.DNNLinearCombinedClassifier( 
model _dir=FLAGS.model dir, 


linear_feature_columns=wide columns, - 
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dnn_feature_columns=deep_columns, 

dnn_hidden_units=[5], 

config=config) 

return tf.contrib.learn.Experiment( 

estimator=estimator, 
train_input_fn=data_source.input_train_fn, 
eval_input_fn=data_source.input_test_fn, 
train_steps=FLAGS.train_steps, 
eval_steps=FLAGS.eval_steps) 


然后 就 可 以 把 create_experiment fn(0 国 数 传 入 LearnRunner 里 进行 不 同类 型 的 试验 ， 
例如 当地 试验 或 者 服务 器 试验 ， 以 及 把 试验 的 结 采 存储 到 不 同 的 路 径 中 ， 代 码 如 下 。 


learn_runner.run(experiment_fn=create_experiment_fn, 
output_dir=FLAGS.output_dir, 
schedule=FLAGS. schedule) 


10.2 REZJY Estimator 


TF.Learn 里 包含 了 许多 深度 学 习 Estimator 的 实现 ， 高 阶 的 API 让 用 户 使 用 起 来 更 方 
便 。 本 节 介 绍 一 些 基 本 的 高 阶 深度 学 习 API 及 它们 和 TensorFlow 其 他 模块 结合 使 用 的 例 
“Fs 


10.2.1 ”深度 神经 网 络 


TF.Leam 里 包含 简单 易 用 的 深度 神经 网 络 Estimator ， 例 如 分 类 问题 可 以 使 用 
DNNClassifier， 下 面 我 们 介绍 一 个 最 简单 的 例子 。 先 在 _input_fn() 里 建立 数据 ， 这 里 使 用 
ee ad 绍 它 们 的 使 用 方法 )。 


def _input_fn(num epochs=None): 
features = {'age': tf.train.limit_epochs(tf.constant([[.8],[.2],[.1]]), 
7 oe } num_epochs=num_epochs), 
‘language’: tf.SparseTensor(values=[‘en', ‘fr', ‘zh'], 
| indices=[[@, 0], [Ə, 1],[2, 8]], 
shape=[3, 2])} 
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return features, tf.constant([[1], [@], [@]], dtype=tf.int32) 


language column = tf.contrib.layers.sparse_column_with_hash_bucket( 
‘language’, hash_bucket_size=20) 
feature_columns = [ 
tf.contrib.layers.embedding column(language column, dimension=1), 


tf.contrib.layers.real_valued_column('age') 


接着 就 把 特征 列 、 每 层 的 隐藏 神经 单元 数 、 标 识 类 别 数 等 传 入 DNNClassifier 里 来 迅 
速 地 建立 我 们 的 深度 神经 网 络 模 型 。 
classifier = tf.contrib.learn.DNNClassifier( 

n_classes=2, 

feature_columns=feature_ columns, 

hidden_units=[3, 3], 


config=tf.contrib. learn. RunConfig(tf_random_seed=1) ) 


然后 使 用 我 们 习惯 的 fit() 、evaluate() 等 方法 进行 模型 的 训练 和 评估 。 


classifier.fit(input_fn=_input_fn, steps=100) 


scores = Classifier.evaluate(input_fn=_input_fn, steps=1) 


在 许多 实际 应 用 中 , 每 行 数据 都 有 它们 的 权重 ,比如 在 图 片 分 类 运用 中 , 每 张 图 片 的 
标识 来 自 于 不 同 的 标识 者 ， 它 们 的 可 信和 度 不 一 样 ， 所 以 每 张 图 片 的 标识 权重 也 不 同 。 在 
DNNClassfier 中 ,我 们 可 以 指定 一 列 为 权重 列 , 然 后 它 会 帮 我 们 自动 分 配 到 训练 过 程 中 去 。 
在 以 下 的 例子 中 , 我 们 建立 四 行 数据 , 每 行 有 不 同 的 权重 , 我 们 先 把 权重 列 和 特征 列 放 在 
features 里 面 。 | 


def input fn train(): 
: target = tf.constant({[1], [0], [@], [@]]) 
features ={ : 
‘x': tf.ones(shape=[4, 1], dtype=tf.float32), 
'w': tf.constant([[100.], [3.], [2-], [2-]]) 
} 


return features, target 
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然后 就 可 以 在 DNNClassifier 中 表明 权重 列 的 列 名 ， 在 这 里 也 就 是 w， 然 后 表明 特征 
列 的 列 名 x CER: 我 们 需要 将 x 转换 为 特征 列 )。 


classifier = tf.contrib.learn.DNNClassifier( 
weight_column_name='w', 
feature_columns=[tf.contrib.layers.real_valued_column('x')], 
hidden_units=[3, 3], 


config=tf.contrib.learn.RunConfig(tf_random_seed=3) ) 


classifier.fit(input_fn=_input_fn_train, steps=100) 


我 们 也 可 以 传 入 进 我 们 自 定义 的 metrics 方程 my_metric_op()， 需 要 做 的 就 是 操作 
predictions 和 targets 进行 我 们 心目 中 的 metrics 计算 ， 此 处 只 考虑 二 分 类 的 问题 ， 使 用 
tf.slice()BUW predictions 的 第 二 列 当 作 最 终 的 预测 值 。 
def input fn train(): 

target = tf.constant([[1], [0], [0], [21]) 

features = {'x': tf.ones(shape=[4, 1], dtype=tf.float32), } 


return features, target 


def _my_metric_op(predictions, targets): 
predictions = tf.slice(predictions, [@, 1], [-1, 1]) 


return tf.reduce sum(tf.mul(predictions, targets)) 


这 里 我 们 举 个 例子 来 帮助 理解 从 slice()， 假 设 我 们 有 以 下 矩阵 。 
input = [[[1, 1, 1], [2, 2, 2]], 
[[3, 3, 3], [4, 4, 4]], 
[lbs SSi (65.6; 6111 


tf.slice() 需 要 传 入 输入 矩阵 input, HFAA begin, VAREIWAY Tensor 的 形状 
size，size[i] 代 表 了 第 i 个 维度 想 剪 切 的 和 矩阵 的 shape， 例 如 tf.slice(input, [1, 0, 0], [1, 1, 
3]) 可 以 得 到 [[[3，3，3]]]; tfslice(input，[1，0，0],，[1，2，3]) 可 以 得 到 [[[3，3，3]，[4，4，4]]]。 


我 们 根据 需求 任意 地 在 predictions 和 targets 上 操作 来 实现 想 要 的 metrics 计算 ， 然 后 
就 可 以 在 evaluateO0 时 传 入 自己 定义 好 的 metrics 函数 , TF.Leam 会 根据 你 所 指示 的 metrics 
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评估 模型 。 


classifier = tf.contrib.learn.DNNClassifier( 
feature_columns=[tf.contrib.layers.real_ valued _column(’x')], 
hidden_units=[3, 3], 


config=tf.contrib.learn.RunConfig(tf_random_ seed=1)) 
classifier.fit(input_fn=_input_fn_train, steps=1@0) 


scores = classifier.evaluate( 
input_fn=_input_fn_train, 
steps=100, 
metrics={ 
‘my_accuracy': tf.contrib.metrics.streaming accuracy, 
(‘my_precision’, ‘classes'): tf.contrib.metrics.streaming_ precision, 


(‘'my_metric', ‘probabilities’): _my_metric_op}) 


值得 注意 的 是 ， 我 们 可 以 在 evaluate(0) 时 提供 多 个 metrics， 其 中 一 个 _ my_metric_op 
是 我 们 之 前 自 定义 好 的 ， 其 他 两 个 是 tf.contrib 里 自 带 的 ， 之 后 的 章节 中 也 会 简单 提 到 一 
些 内 建 的 metrics 的 用 法 。 


我 们 也 可 以 在 提供 optimizer 时 提供 目 己 定义 的 函数 ， 例 如 ， 可 以 定义 自己 的 优化 函 
数 来 包含 指数 递减 的 学 习 率 。 
def optimizer_exp_decay(): 
global step = tf. contrib. framework.get_or_create global step() 
learning rate = tf.train.exponential decay( | 
learning rate=0.1, global step=global step, _ 
decay _steps=100, decay rate=0.0@1) 


return tf.train. AdagradOptimizer(learning_rate= learning_ rate) 


这 里 用 tf.contrib.framework.get_ or create global step() 得 到 目前 模型 训练 到 达 的 全 局 
步 数 ， 然 后 使 用 tf.train.exponential_decay() 对 学 习 率 进行 指数 递减 ， 这 种 方法 在 许多 应 用 
中 特别 第 用 ， 尤 其 是 用 来 避免 爆炸 梯度 之 类 的 问题 


接着 可 以 将 这 个 目 定 义 的 优化 函数 放 入 DNNClassifier 里 继续 使 用 我 们 熟悉 的 方法 建 
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TREAT ER ERVA, RAIH iris 数据 举 个 例子 。 
iris = datasets.load_iris() 
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, 


test_size=0.2, random_state=42) 


feature_columns = tf.contrib.learn.infer_real_valued_columns_from_input( 
x_train) 
classifier = tf.contrib.learn.DNNClassifier(feature_columns=feature_columns, 
hidden_units=[10, 20, 10], 
n_classes=3, 


optimizer=optimizer_exp decay) 


classifier.fit(x_train, y_train, steps=800) 


10.2.2 ”广度 深度 模型 


广度 深度 模型 的 DNNLinearCombinedClassifier 是 谷歌 最 新 研究 的 成 果 ， 研 究 团队 将 
这 个 模型 在 TRLeam 里 面 实现 ， 然 后 开源 ， 这 样 更 有 利于 其 他 研究 者 再 次 重复 实验 结果 
及 学 习 。 这 个 模型 被 谷歌 广泛 地 利用 在 各 种 机 器 学 习 应 用 中 , 它 是 深度 神经 网 络 和 你 辑 回 
归 的 结合 , 因为 在 谷歌 的 研究 中 发 现 , 将 不 同 的 特征 通过 两 种 不 同 的 方式 结合 起 来 , 更 能 
够 体现 应 用 的 意义 及 更 有 效 的 推荐 结果 ， 这 其 实 也 和 Kaggle 苋 赛 中 经 常 使 用 的 Ensemble 
的 方法 比较 类 似 。 


使 用 的 DNNLinearCombinedClassifier 的 方法 和 之 前 介绍 的 DNNClassifier 及 在 接 下 来 
将 介绍 的 LinearClassfier 的 使 用 方法 类 似 ， 唯 一 的 区 别 是 你 有 更 多 的 参数 ， 并且 可 以 将 不 
同 的 特征 列 选 择 使 用 到 DNNClassifier 或 者 LinearClassfier Ho l 


gender = tf.contrib.layers.sparse_column_with_keys( 
"sender", keys=["female", "“male"]) 

education = tf.contrib.layers.sparse_column_with_hash_bucket( 
“education”, hash_bucket_size=1000) 

relationship = tf.contrib.layers.sparse_column_with_hash_bucket( 
"relationship", hash bucket_size=100) 


workclass = tf.contrib.layers.sparse_column_with_hash_bucket( 
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"workclass", hash_bucket_siże=100) 


wide_columns = [gender, education] 


deep_columns = [relationship, workclass] 


m = tf.contrib.learn.DNNLinearCombinedClassifier( 
model_dir=model_dir, 
linear_feature_columns=wide_columns, 
dnn_feature_columns=deep_columns, 


dnn_hidden_units=[166，56]) 


我 们 将 gender, education, 、relationship 、workclass 都 转换 为 FeatureColumn， 这 是 特 
征 工程 中 特别 重要 的 一 步 。 然 后 ， 将 它们 分 为 wide columns 和 deep_columns ， 其 中 
wide_columns 将 被 用 在 LinearClassifier 11, deep columns 会 被 用 在 DNNClassifier 中 ， 然 
后 将 它们 分 别传 入 DNNLinearCombinedClassifier 建立 广度 深度 模型 ， 这 样 模 型 既 具 有 线 
人 性 特征 ， 也 有 具有 深度 神经 网 络 特 征 。 官 方 网 站 的 Tutorials 
( https://www.tensorflow.org/tutorials/) 上 有 非常 有 意思 的 例子 ， 建 议 读者 去 学 习 并 应 用 到 
目 己 的 项 目 中 。 


10.3 ”机 器 学 习 Estimator 


TF.Leam 里 不 仅 包 括 了 许多 流行 的 深度 学 习 Estimator， 还 包括 了 各 种 各 样 的 机 器 学 
习 算 法 ， 例 如 随机 和 森林、 支持 向 量 机 ， 等 等 。 这 让 TF.Learn 及 TensorFlow 与 现 有 的 其 他 
软件 包 的 界限 和 特色 更 明显 。 在 谷歌 内 部 的 大 力 支持 及 外 部 开源 社区 的 代码 贡献 下 , 相信 
TF.Learn 会 成 为 未 来 的 分 布 式 Scikit-learm。 接 下 来 ,我 们 将 介绍 TF.Learn 里 比较 流行 的 
机 器 学 习 高 阶 API. 


10.3.1 线性 / 远 辑 回归 


使 用 TF.Learn 建立 大 家 熟悉 的 线性 或 者 逻辑 回归 非常 简单 ， 与 之 前 提 到 的 深度 神经 
网 络 的 使 用 方法 类 似 。 


举 个 简单 的 例子 ,假设 我 们 在 input fp() 里 建立 简单 的 两 个 特征 列 的 数据 ， 分 别 是 年 
瞬 和 语言 ， 以 及 它们 的 标识 , 这 里 我 们 用 简单 的 常数 代替 阐述 , 使 用 在 后 面 章节 会 提 到 的 
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特征 列 API 217 ite S EI MAES o 


def input_fn(): 
return { 
‘age': tf.constant([1]), 
‘language’: tf.SparseTensor(values=[ ‘english'], 
indices=[[®, @]], 
shape=[1, 1]) 


PA tf.constant([[1]]) 


language = tf.contrib.layers.sparse column with hash bucket('language', 100) 


age = tf.contrib.layers.real_valued_column('‘age') 


然后 就 可 以 将 这 些 特征 列传 入 LinearClassifier 里 建立 逻辑 回归 分 类 器 ， 使 用 熟悉 的 
fit), 、evaluate() 等 函数 。 注 意 ， 我 们 可 以 使 用 get_variable_names() 得 到 所 有 模型 包含 的 变 
量 的 名 称 : 
classifier = tf.contrib.learn.LinearClassifier( 

feature_columns=[age, language]) 
classifier. fit(input_fn=input_fn, steps=100) 
classifier.evaluate(input_fn=input_fn, eoD o 


classifier.get_variable_names() 


类 似 地 ， 我 们 也 可 以 像 前 文 介 绍 的 那样 ， 使 用 自 定 义 的 优化 函数 ， 这 里 使 用 
ttrain.FtrlOptimizer(O) 进 行 优 化 ， 也 可 以 对 它 进 行 任意 改动 然后 传 到 LinearClassifier 里 : 
classifier = tf.contrib.learn.LinearClassifier( | 

n_classes=3, 2 l 

optimizer=tf.train.FtrlOptimizer(learning rate=@.1), 


feature_columns=[feature_column]}) 


10.3.2 ”随机 森林 

随机 森林 是 在 工业 界 得 到 广泛 应 用 的 一 种 机 器 学 习 算法 , 它 是 一 个 包含 多 个 决策 树 的 
分 类 器 及 回归 算法 。 在 许多 实际 的 运用 中 , 它 的 效果 非常 好 , 尤其 是 处 理 不 平衡 的 分 类 资 
料 集 时 ， 它 极 大 地 平衡 了 误差 。 在 许多 Kaggle 数据 科学 竞赛 中 ， 它 的 延伸 版 XGBoost 更 
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是 帮助 了 许多 竞赛 者 取得 了 优异 的 成 绩 。 
TF.Learn 里 含有 随机 森林 Estimator， 接 下 来 我 们 用 iris 数据 及 随机 森林 Estimator 进 


hparams = tf.contrib.tensor_forest.python.tensor_forest. ForestHParams( 
num trees=3, max_nodes=100@, num_classes=3, num_features=4) 


classifier = tf.contrib.learn.TensorForestEstimator(hparams ) 


在 之 前 的 章节 中 讲解 过 TensorForestEstimator 代码 的 内 部 架构 ， 首 先 需 要 使 用 
tensor_forest.ForestHParams 设置 随机 和 森林 的 参数 , 例如 多 少 棵 树 、 节 点 数目 的 上 限 、 特 征 
和 类 别 的 数目 ， 等 等 。 


iris = tf.contrib.learn.datasets.1load iris() 
data = iris.data.astype(np.float32) 

target = iris.target.astype(np.float32) 
classifier.fit(x=data, y=target, steps=100) 


然后 直接 传 进 TensorForestEstimator 里 初始 化 随机 森林 Estimator， 接 下 来 ， 把 数据 特 
征 列 和 类 别 列 转换 成 float32 的 格式 , 这 样 能 够 保证 TensorForestEstimator 的 训练 更 快 地 拟 
合 。 接 下 来 ， 可 以 直接 使 用 Scikit-leam 风格 的 fit0 等 方法 。 


类 似 地 , 我 们 也 可 以 把 这 个 初始 化 好 的 classifier 运用 到 MNIST 图 像 数 据 上 ， 这 里 我 
们 从 官方 tutorials 模块 里 导入 MNIST 数据 。 


from tensorflow.examples.tutorials.mnist import input_data 


mnist = input_data.read_data_sets(FLAGS.data_dir, one _hot=False) 

一 般 在 实际 应 用 中 , 随机 森林 容易 过 拟 合 , 一 种 常用 的 防止 过 拟 合 的 方法 就 是 损失 减 
少 的 速度 变 慢 或 者 完全 停止 减少 的 情况 下 ， 提 前 停止 模型 的 继续 训练 。 在 TF.Learn 里 ， 
我 们 可 以 用 Monitor 模块 达到 这 个 目的 。 我 们 会 在 接 下 来 的 内 容 中 仔细 讲解 它 的 各 种 用 法 ， 
但 是 以 下 我 们 给 出 一 个 常用 的 random_ forest 模 块 里 自 带 的 LossMonitor 来 迅速 地 达到 我 们 
的 目的 。 我 们 设 定 每 隔 100 A Monitor 检查 损失 减少 的 速度 ， 如 果 连 续 100 次 迭代 仍然 没 
有 看 见 损失 的 减少 ，Monitor 会 让 整个 模型 训练 停止 ， 这 样 在 实际 应 用 中 是 非 第 有 效 的 。 


from tensorflow.contrib.learn.python.learn.estimators import random_forest 
early_stopping_rounds = 100 
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check_every_n_steps = 100 
monitor = random_forest.LossMonitor(early_stopping_rounds, 
check_every_n_steps) 
classifier.fit(x=mnist.train.images, y=mnist.train.labels, batch_size=1000, 
monitors=[monitor ] ) 
results = estimator.evaluate(x=mnist.test.images, y=mnist.test.labels, 


batch_size=1000) 


10.3.3 K 均值 聚 类 


K 均值 聚 类 是 非常 常见 的 一 种 聚 类 方法 , 它 的 核心 是 把 多 维 空间 里 的 每 个 点 划分 到 K 
个 聚 类 中 ， 使 得 每 个 点 都 属于 离 它 最 近 的 均值 对 应 的 聚 类 。TF.Lear 里 也 包含 了 K 均值 
聚 类 的 Estimator， 我 们 来 看 一 个 简单 的 例子 。 


import numpy as np 


def make random centers(num centers, num dims): 
return np.round(np.random.rand(num centers, 


num_dims).astype(np.float32) * 500) 


def make _random_points(centers, num_points, max_offset=20): 
num_centers, num_dims = centers.shape 
assignments = np.random.choice(num_centers, num_points) 
offsets = np.round(np.random.randn(num_points, 
num_dims).astype(np.float32) * max_offset) 
return (centers[assignments] + offsets, 
assignments, 


np.add.reduce(offsets * offsets, 1)) 


以 上 两 个 函数 是 利用 NumPy 制造 比较 适合 做 聚 类 的 一 组 数据 ，make random centers 
国 数 来 随机 生成 num dims 个 维度 的 数据 集聚 类 的 num centers 个 中 心 点 ， 
make_random_points 函数 根据 所 生成 的 聚 类 中 心 点 随便 生成 num_points 个 点 。 我 们 生成 
二 维 的 10000 个 点 ， 以 及 6 ae RSL o 


num_centers = 6 
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x 


num_dims = 2 
num_points = 10000 
true_centers = make_random_centers(num_centers, num_dims) 


points, _, scores = make_random_points(true_centers, num_points) 


接着 ， 可 以 调用 factorization 模块 里 KMeans 里 的 一 些 初 始 化 聚 类 的 方法 ， 例 如 随机 
初始 化 RANDOM INIT ,然后 传 入 RunConfig 及 聚 类 中 心 数 来 初始 化 KMeans 的 Estimator 
对 象 ， 最 后 就 可 以 像 其 他 Estimator 一 样 使 用 Scikit-learn 风格 的 ft0 和 predict()， 读 者 可 
以 通过 KMeans 的 clusters() 函 数 来 看 训练 数据 集 每 个 点 的 聚 类 分 布 。 


from tensorflow. contrib. factorization. python.ops import kmeans as kmeans_ops 
from tensorflow.contrib.factorization.python.ops.kmeans import \ 
KMeansClustering as KMeans 
kmeans = KMeans(num_centers=num_centers, 
initial clusters=kmeans_ops.RANDOM_INIT, 
use _mini_batch=False, 
config=RunConfig(tf_random seed=14), 


random_seed=12) 


kmeans.fit(x=points, steps=10, batch_size=8) 


clusters = kmeans.clusters() 


kmeans.predict(points, batch _size=128) 
kmeans.score(points, batch_size=128) 


kmeans . transform(points, batch. _size=128) 


值得 注意 的 是 ，KMeans 的 Estimator 有 多 个 经 常用 到 的 方法 ,使 用 predict() 预 测 新 的 
数据 点 的 聚 类 , 使 用 score() 预 测 每 个 点 和 它 最 近 的 聚 类 的 距离 的 总 和 ,以 及 用 transform() 
计算 每 个 点 和 模型 判断 出 来 的 聚 类 中 心 的 距离 。 


10.3.4 RRS 


支持 向 量 机 也 是 在 机 器 学 习 应 用 中 经 常用 到 的 一 类 算法 ， 它 包括 使 用 各 种 不 同 的 
kernel 或 者 不 同 的 距离 方程 ， 针 对 不 同 特征 的 数据 建立 不 同 的 线性 及 非 线 性 的 模型 。 它 们 
有 一 个 共同 的 特性 就 是 能 够 同时 最 小 化 经 验 误差 与 最 大 化 几何 边缘 区 ,所 以 也 被 称 为 最 大 
边缘 区 分 类 器 。 在 文本 及 图 像 分 类 等 领域 得 到 广泛 的 使 用 。TF.Leam 里 面 的 SVM Estimator 
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tek CARH i DAA API 来 建立 支持 向 量 机 模型 。 


我 们 先 定义 input fp(O) 建 立 一 个 有 着 两 个 数据 特征 列 .一 个 ID 列 和 一 个 标识 列 的 模拟 
数据 ， 然 后 使 用 contrib.layers 里 面 的 FeatureColumn API 将 featurel 和 feature2 转换 为 方 
便 和 Estimator 一 起 使 用 的 FeatureColumn ( 我 们 将 在 第 11 章 中 详细 介绍 这 个 功能 )。 


def input_fn(): 
return { 
‘example id': tf.constant([‘1', 2 '3"]), 
"featurel': tf.constant([[0.0], [1.0], [3.0]]), 
'feature2': tf.constant([[1.0], [-1.2], [1.0]]), 
Petr. constant Che lL ol Tl) 


featurel = tf.contrib.layers.real_valued_column('feature1’ ) 


feature2 = tf.contrib.layers.real_valued_column('feature2' ) 


然后 就 可 以 将 这 些 特征 列 及 ID 列传 入 SVM 来 初始 化 这 个 支持 向 量 机 ， 许 多 参数 是 
Va DAY, 例如 在 11 regularization 和 12_regularization 中 加 入 一 些 正 规 化 来 防止 过 度 拟 合 之 
类 的 问题 , 和 我 们 之 前 在 随机 和 森林 那 一 节 简 单 提 到 过 的 问题 相似 , 许多 机 器 学 习 算法 在 特 
征 列 过 多 而 例子 不 多 的 情况 下 很 容易 发 生 这 样 的 情况 。 
svm_classifier = tf.contrib.learn.SVM(feature_columns=[feature1, feature2], 
example id column='example id ， 
It repulanization=0.0, 


-12_regularization=9.@) 


接 下 来 就 可 以 使 用 熟悉 的 fit()、evaluate()、predict() 之 类 和 其 他 Estimator 共用 的 方法 
Te 


svm_Classifier.fit(input_fn=input_fn, steps=30) 
metrics = svm_classifier.evaluate(input_fn=input_fn, steps=1) 
loss = metrics['loss’] 


accuracy = metrics[ ‘accuracy’ | 
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10.4 DataFrame 


TF.Learn 还 包括 了 一 个 单独 的 DataFrame 模块 ， 类 似 于 Pandas, Spark 或 者 R 编程 语 
言 里 面 的 DataFrame, 它 提供 了 TF.Leam 所 需 的 读 入 数据 的 迭代 ,包括 读 入 各 种 数据 类 型 ， 
例如 pandas.DataFrame、 tensorflow.Example、NumpPy, 等 等 。 它 包括 了 FeedingQueueRunner 
等 功能 来 对 数据 进行 分 批 读 入 ， 然 后 存在 一 个 Queue 里 ， 以 便 Estimator 很 容易 地 取 过 去 
用 于 模型 的 训练 。 简 单 来 说 ，FeedingQueueRunner 在 Estimator 训练 时 同时 进行 了 更 多 数 
据 的 分 批 读 入 ， 这 种 多 线程 的 方式 使 Estimator 的 训练 更 有 效 ， 也 使 TF.Learn 的 扩展 性 更 
IRo 


以 NumPy 为 例 ， 假 设 我 们 用 NumPy 的 eye0 建 了 一 个 简单 的 对 角 和 矩阵 ， 然 后 就 可 以 
直接 使 用 TensorFlowDataFrame.from_ _ numpy() 将 这 个 NumPy 和 矩阵 转换 为 TensorFlow 的 


DataFrame。 


import tensorflow.contrib.learn.python.learn.dataframe.tensorflow_dataframe 
as df 
x = np.eye(26) 


tensorflow_df = df.TensorFlowDataFrame.from_numpy(x, batch size =10) 


类 似 地 ， 我 们 也 可 以 直接 像 Pandas 一 样 读 入 各 种 文件 类 型 ， 这 里 我 们 以 csv 文件 为 
例 。 


pandas_df = pd.read_csv(data_path) 
tensorflow df = df.TensorFlowDataFrame.from_csv([data_path],enqueue_size=20, 
batch_size=10, shuffle=False, 


default_values=default_values) 


当 使 用 TensorFlowDataFrame 读 入 使 用 的 文件 或 者 数据 类 型 之 后 ， 就 可 以 使 用 run() 
制造 一 个 数据 批量 (batch) 的 生成 器 ， 也 就 是 在 Python 里 经 常用 yield 生成 的 generator, 
这 个 生成 器 维持 着 数据 列 名 和 数据 值 的 字典 mapping. 可 以 调节 number_batches 来 选择 生 
成 的 batch 的 数量 ， 也 可 以 选择 性 地 使 用 自己 的 graph 和 session， 这 样 数据 的 batch 会 被 
存在 对 应 session 的 coordinator 里 ， 以 便 之 后 更 方便 地 获取 。 


tensorflow_df.run(num_batches=1@, graph=graph, session=sess) 
我 们 也 可 以 使 用 batchO 重 新 改变 每 个 batch 的 大 小 , 也 可 以 选择 将 数据 洗 一 遍 来 打 乱 
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顺序 ， 很 多 应 用 都 通过 这 种 方式 增加 数据 的 随机 性 。 


tensorflow_df.batch(batch_size=10, shuffle=true, num_threads=3) 


还 有 许多 实用 的 函数 ,例如 用 splitO 将 DataFrame 分 成 多 个 DataFrame FA select_rows() 
选择 具体 某 行 数据 ,等 等 。 这 里 我 们 就 不 多 介绍 了 。DataFrame 将 会 被 主要 用 在 Estimator 
E, 这 样 用 户 就 可 以 把 精力 放 在 数据 的 供给 ,而 不 用 担心 数据 的 数据 类 型 和 文件 类 型 。 

一 模块 以 后 的 变化 将 会 很 大 ， 请 读者 参考 最 新 的 官方 文档 和 代码 。 


10.5 ”监督 器 Monitors 


训练 模型 时 , 没有 程序 日 志 的 话 整个 过 程 就 像 是 个 黑匣子 , 我 们 很 难 知道 模型 的 进展 
及 发 展 方向 ， 例 如 模型 在 进行 各 种 优化 ， 使 用 SGD 做 优化 时 ， 我 们 无 法 看 到 模型 症 否 在 
拟 合 及 拟 合 的 速度 。 


当然 , 用 户 可 以 把 训练 的 过 程 分 为 儿 个 部 分 , 然后 在 fit0) 迭 代 时 时 不 时 地 打印 出 一 些 
有 用 的 信息 ， 但 是 这 样 的 程序 往往 会 很 慢 。 这 时 ，TF.Learn 里 目 市 的 Monitor Wik LA 
了 ， 它 提供 各 种 logging 及 监督 控制 训练 的 过 程 ， 这 样 用 户 就 能 更 清楚 地 知道 模型 是 否 在 
”进行 有 效 的 训练 。 在 之 前 的 章节 中 我 们 简单 提 到 过 ， 接 下 来 将 给 出 详细 的 例子 来 分 析 
Monitors 的 使 用 方法 。 


TensorFlow 有 5 个 等 级 的 log， 以 严重 性 最 小 到 最 大 排列 ， 它 们 是 DEBUG, INFO, 
WARN、ERROR， 以 及 FATAL。 当 用 户 选 择 好 log 的 等 级 之 后 ， 只 有 那个 等 级 和 更 严重 
等 级 的 log 会 被 打印 出 来 。 举 例 来 说 ， 如 果 等 级 设置 为 ERROR， 那 么 你 会 看 到 ERROR 
和 FATAL 等 级 的 log; 如 果 等 级 设置 为 DEBUG， 那 么 所 有 等 级 的 log 都 会 打印 出 来 。 
TensorFlow 的 默认 log 等 级 是 WARN， 所 入 如 用 起 在 模型 训练 时 看 到 log， 需要 用 下 面 这 

行 代码 把 等 级 改 到 INFO。 


tf. logging. set _verbosity(tf. logging. INFO) 
改 了 等 级 之 后 , 你 会 看 到 类 似 以 下 的 log。 注 意 这 些 是 由 一 个 默认 的 Monitor 提供 的 ， 
每 100 步 会 打印 出 一 些 损失 值 信息 。 


INFO:tensorflow:Training steps [@, 200) 
INFO: tensorflow:global_step/sec: 6 
INFO: tensorflow:Step 1: loss 1:0 = 2.34635 
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INFO:tensorflow:training step 100, loss = 0.18227 (0.0901 sec/batch). 


INFO:tensorflow:Step 101: loss 1:0 0.191093 
INFO:tensorflow:Step 200: loss_1:0 = 00.0835024 


INFO:tensorflow:training step 200, loss = 0.080932 (0.002 sec/batch). 


TF.Learn 提供 几 个 方便 使 用 的 高 阶 Monitor 28, 例如 用 CaptureVariable 将 一 个 指定 的 
变量 的 值 存储 到 一 个 Collection 里 ， 用 PrintTensor 打印 Tensor 的 值 ， 用 SummarySaver 存 
储 Summary 所 需要 的 协议 缓冲 (Protocol Buffer )，ValidationMonitor 在 训练 时 打印 多 个 
评估 Metrics， 以 及 监督 模型 的 训练 以 便 提前 停止 训练 防止 模型 的 过 度 拟 合 。 这 些 不 同 的 
Monitor 都 会 在 每 卫 N 步 时 执行 。 


接 下 来 ， 我 们 将 详细 地 讲解 怎样 使 用 Monitor， 主 要 以 ValidationMonitor 作为 例子 
Hw, BREFS CSV 格式 的 iris 数据 ， 我 们 可 以 使 用 TF.Leam 目 市 的 
learn.datasets.base.load csv() 读 入 这 些 CSV 数据 文件 。 


import numpy as np 


import tensorflow as tf 


iris_train = tf.contrib.learn.datasets.base.load_csv( 
filename="iris training.csv", target_dtype=np.int) 
iris test = tf.contrib. learn.datasets.base.load_csv( 


filename="iris_test.csv", target_dtype=np.int) 


接着 ， 定 义 一 个 评估 模型 的 metrics 字典 ， 这 里 使 用 contrib.metrics 模块 里 面 的 
streaming accuracy, streaming precision， 以 及 streaming recall， 对 模型 的 准确 度 、 精 确 
度 ， 以 及 召回 率 进行 评估 。 
validation metrics = {"accuracy™: tf-contrib.metrics.streaming_ accuracy, — 

i “precision”: tf.contrib.metrics.streaming precision, 


"recall": tf.contrib.metrics.streaming_recall} 


然后 用 定义 好 的 validation metrics 建立 一 个 validation monitor, 这 里 需要 提供 用 来 评 
估 的 数据 及 目标 ， 提 供 every_n steps 来 指示 每 50 步 以 实行 一 次 这 个 ValidationMonitor， 
把 之 前 定义 好 的 validation_metrics 传 入 metrics, FA early_stopping metric 选择 用 来 提前 停 
止 所 需要 监测 的 metric, early stopping metric_ minimize=True 表明 我 们 需要 最 小 化 之 前 提 
供 的 early_stopping metric. 最 后 ,， 用 early_stopping rounds 表明 如 果 超 过 200 步 训 练 损 失 
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仍然 不 减少 ，ValidationMonitor {= ik Estimator 的 训练 。 


validation_monitor = tf.contrib.learn.monitors.ValidationMonitor( 
iris_test.data, 
iris_test.target, 
every_n_steps=50, 
metrics=validation_metrics, 
early_stopping_metric="loss", 
early_stopping_metric_minimize=True, 


early stopping rounds=2@0) 


紧 接着 ,我 们 建立 一 个 深度 神经 网 络 分 类 器 DNNClassifier， 它 有 三 层 神 经 网 络 ， 
层 分 别 有 10、15 和 10 个 隐藏 单元 。 “arena fitO 时 来 指 eatp te 
器 validation monitor ， 注 意 ， 也 可 以 指定 多 个 监督 器 来 实现 不 同 功 能 的 监督 ， 例 如 
[validation monitor, debug monitor, print_monitor], 
classifier = tf. contrib. learn.DNNClassifier(feature_columns=feature_columns, 
hidden_units=[10, 15, 10], 
n_classes=3, 
model _dir="/iris model dir", 


config=tf.contrib.learn.RunConfig(save checkpoints secs=2)) 


classifier.fit(x=iris train.data,y=iris_train.target, steps=1000, 


monitors= [validation _monitor]) 


接 下 来 ， 可 以 使 用 我 们 熟悉 的 evaluate0) 或 者 predict() 用 新 的 数据 评估 模型 的 准确 度 。 


accuracy_score = classifier. evaluate(x= iris “test. data, 


y=iris_test.target)["accuracy"] 


new_samples = np.array([[5.2,3.1,6.5,2. 2], [2 B32 SS otype float) 


y = classifier. predict(new_ samples) 


我 们 将 会 得 到 类 似 以 下 的 log， 可 以 观察 到 模型 在 750 步 时 被 终止 了 ， 因 为 损失 值 没 
有 继续 减少 


INFO:tensorflow:Validation (step 950): recall = 1.0, accuracy = 0.966667, gl 
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obal_step = 932, precision = 1.0, loss = @.0608345 
INFO: tensorflow:Stopping. Best step: 750 with loss = 8. 0581324. 


虽然 ValidationMonitor 提供 了 很 多 信息 和 功能 , 但 是 当 训 练 步 数 很 大 时 , 我 们 很 难 观 
察 模型 的 准确 率 到 底 是 怎么 变化 的 。 值 得 庆幸 的 是 ，TF.Leam 生成 的 log 及 checkpoint 的 
文件 是 能 够 直接 读 入 TensorBoard 里 进行 可 视 化 的 。 如 果 在 命令 行 里 执行 以 下 几 行 ， 融 会 
在 给 出 的 地 址 里 看 到 TensorBoard 对 整个 speculaas 如 图 10-1 所 示 。 
$ tensorboard --logdir=/iris | model STTV 


Starting TensorBoard 22 on port 6666 
(You can navigate to http://0.0.0.0:6006) 





Wam diegexlocinateatag group X accuracy 


C Spit on underscores 


[O Data download links 


Horizontal Axis 


Runs 





Write a regex to fitter runs 
; centerod.bias.. ak 
eval centered bias. 


图 10-1 TensorBoard 对 模型 训练 的 可 视 化 
图 片 来 源 于 tensorflow. org 
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TF.Contrib 是 TensorFlow 里 很 重要 的 一 个 部 分 , 很 大 一 部 分 开源 社区 的 贡献 都 被 集中 
在 这 里 , 特别 是 一 些 比较 新 的 功能 ,由 于 都 是 一 些 刚 页 献 的 功能 ,谷歌 会 将 这 些 代码 暂时 
放 在 这 里 ， 由 谷歌 内 部 及 外 部 的 用 户 一 起 测试 ， 根 据 反 馈 意 见 改 进 性 能 和 改善 API 的 友 
好 度 ， 等 它们 的 API 都 比较 稳定 时 ， 会 被 移 到 TensorFlow 的 核心 模块 。 

这 个 模块 里 提供 了 机 器 学 习 需 要 的 大 部 分 功能 , BATA. Hae. RR 
数 、 指 标 ， 等 等 。 本 章 将 简单 介绍 其 中 的 一 些 功能 让 大 家 了解 TensorFlow 的 涵盖 范围 和 
感受 到 社区 积极 地 参与 和 贡献 度 。 注 意 这 部 分 功能 在 未 来 会 不 断 变动 和 改进 , 如 果 是 写生 
产 代码 的 话 ， 请 以 最 新 的 官方 教程 和 API 指南 作为 最 权威 的 参考 。 


11.1 ”统计 分 布 


在 TF.contrib.distributions 模块 里 有 许多 的 统计 分 布 , 例如 Bernoulli, Beta, Binomial, 
Gamma、Exponential 、Normal、Poisson、Uniform， 等 等 。 这 些 统计 分 布 大 多 数 都 是 统计 
研究 和 应 用 中 经 常用 到 的 , 也 是 各 种 统计 及 机 器 学 习 模型 的 基石 , 许多 的 概率 模型 和 图 形 
模型 ( 例如 Bayesian 模型 ) 都 非常 依赖 这 些 统计 分 布 。 


每 个 不 同 的 统计 分 布 有 着 不 同 的 特征 和 函数 ,但 是 它们 都 是 从 同样 的 子 类 Distribution 
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扩展 开 来 的 ，Distribution 是 建立 和 组 织 随 机 变量 和 统计 分 布 的 一 个 最 基础 的 类 ， 它 有 着 
许多 有 用 的 属性 及 类 函数 ， 例 如 用 is_continuous 表明 这 个 随机 变量 分 布 是 不 是 连续 的 ， 
用 allow_nan_stats 表示 这 个 分 布 是 否 接受 nan 的 数据 ， 用 sample() 从 这 个 分 布 里 取样 ， 用 
prob() 计 算 随 机 变量 密度 水 数 , 用 cdf0) 求 票 积分 布 国 数 ， 以 及 用 entropy()、mean()、 o 
variance( 得 到 统计 分 布 的 平均 值 和 方差 之 类 的 特征 。 如 果 想 贡献 目 己 的 统计 分 布 类 ， 

要 实现 一 些 对 应 以 上 的 方程 , 例如 mean(0) 、std0 和 variance()， eg sha 
之 类 表明 这 个 变量 分 布 的 属性 。 


我 们 接 下 来 以 实现 好 的 Gamma 分 布 为 例 来 说 明 这 个 模块 的 大 概 使 用 方法 。 首先 ， 从 
contrib.distributions 里 导入 Gamma 分 布 ， 然 后 初始 化 alpha 和 beta 的 tf.constant, 1x2 
constant 被 用 于 建立 Gamma 分 布 ,我 们 可 以 通过 batch_shape().eval() 得 到 每 个 样本 的 形状 ， 
这 里 例子 的 样本 形状 shapel 是 (5，), 我 们 也 可 以 使 用 get batch shape() 得 到 样本 形状 , 但 

是 是 以 tf.TensorShape 的 类 出 现 的 ， 这 个 例子 里 shape2 是 tf.TensorShape(5), MFP IES 
有 所 长 ， 需 要 依据 具体 应 用 的 需求 来 使 用 。 


from tensorflow.contrib.distributions import Gamma 
import tensorflow as tf | 
alpha = E ontant 07 * 5) | 

beta = tf.constant(11.6) 7 

gamma = Gamma(alpha=alpha, beta=beta) 

shapel = gamma. batch_shape(). eval() : 

shape2 = = gamma. get_ batch _shape() 


然后 ， 可 以 用 log_ pdfO 函 数 取 对 应 的 一 些 值 的 log 转换 后 的 概率 密度 函数 ， 我 们 把 6 
个 值 放 在 numpy.array 里 ， 然 后 得 到 相应 的 log 概率 密度 函数 值 。 
xe = np. -array([2. 53 2. 5, 4 00 4. o; 2s Ə], dtype= =np. float32) 


log _pdf = gamma. log_pdf(x) 


也 可 以 建立 多 维 的 Gamma 分 布 ， 和 一 维 的 类 似 ， 只 需要 传 入 多 维 的 alpha 和 beta S 
数 就 可 以 建立 多 维 的 Gamma 分 布 。 同 样 ， 我 们 可 以 对 多 维 的 x 取得 相应 的 log 概率 密度 
函数 值 。 
batch_size = 6 ples 
alpha = tf.constant([[2.0, 4.0]] * batch size) _ 
beta = tf.constant([[3.0, 4.0]] * batch_size) 
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x = np.array([[2.5, 2.5, 4.0, 0.1, 1.0, 2.0]], dtype=np.float32).T 
gamma = Gamma(alpha=alpha, beta=beta) 
log pdf = gamma.log pdf(x) 


11.2 Layer 模块 


Contrib.layer 包含 了 机 器 学 习 算法 所 需 的 各 种 各 样 的 成 份 和 部 件 ， 例 如 卷 积 层 、 批 标 
准 化 层 、 机 器 学 习 指 标 、 优 化 函数 、 初 始 器 、 特 征 列 ， 等 等 。 有 了 这 些 基础 的 建设 部 件 ， 
我 们 可 以 高 效 地 建立 复杂 的 机 器 学 习 及 机 名 学 习 系统 。 本 章 将 介绍 这 个 模块 里 一 些 主要 的 
部 件 ， 来 帮助 理解 TensorFlow 的 各 种 可 能 性 及 灵活 性 。 


11.2.1 WFIU 


contrib.layers 里 含有 许多 常用 的 次 度 学 习 及 机 器 学 习 的 层 , 例如 卷 积 层 、pooling 层 、 
批 标准 化 等 ,这 些 都 是 各 种 模型 必 不 可 少 的 部 分 ,也 是 机 器 学 习 研 究 领 域 最 活跃 的 一 部 分 。 


深度 学 习 和 计算 机 视觉 里 经 常用 到 的 二 维 的 平均 池 是 avg_pool2d。 我 们 用 
np.random.uniform 建立 宽 和 高 都 是 3 的 几 张 假 图 片 ， 读 者 可 以 通过 
contrib.layers.avg_pool2d0 对 图 片 快 速 地 建立 3x3 的 二 维 平均 了 地， 这 里 output 的 形状 是 [5， 
1，1，3]， 因 为 我 们 对 每 个 3x3 的 区 域 取 计算 平均 值 。 
height, width = 3, 3 ee | 
images = np.random.uniform(size=(5, height, width, 3)) ° 


output = tf.contrib.layers.avg_pool2d(images, Et 3]) 
ARUNDFTKEBUWBHE, KER AA PHAR BEE, ABA 


contrib.layers.convolution2d() 建 立 一 个 有 32 个 3x3 过 滤器 的 卷 积 层 ， 也 可 以 改动 stride、 
padding, 、activation_fn 等 参数 建立 不 同 以 构 的 卷 积 层 ， 使 用 不 同 的 卷 积 层 激活 函数 。 
output = tf.contrib.layers.convolution2d(images， num_outputs=32, | 


kernel_size=[3, 3]) 


值得 注意 的 是 ，contrib.layers 会 自动 建立 op 的 名 字 ， 例 如 output.opname 的 值 是 
'Conv/Relu'， 因 为 我 们 使 用 了 Conv 层 及 使 用 了 ReLU 的 激活 国 数 , 这些 layer 有 自己 对 应 
的 op 名 字 ， 然 后 会 在 每 个 op 空间 存储 对 应 的 变量 ， 可 以 通过 
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contrib.framework.get_variables_by_name() 得 到 对 应 的 op 空间 变量 的 值 。 例 如 ， 可 以 用 
get_variables by name 得 到 我 们 建立 的 卷 积 层 的 权重 ， 这 里 权重 的 形状 ， 也 就 是 
weights shape 的 值 ， 是 [3，3，4，32]。 


weights = tf.contrib.framework.get_variables by name('weights' )[6|] 


weights shape = weights. get_shape( 及 -as_list( ) 


接 下 来 我 们 看 看 怎么 将 卷 积 层 — convolution2d0 和 批 标准 化 层 layers.batch_norm) 
结合 使 用 ， 我 们 先 建立 一 些 图 片 的 矩阵 。 


images = tf.random uniform((5, height, width, 32), seed=1) 


接着 ,使 用 contrib.framework 里 面 的 arg scope 减少 代码 的 重复 使 用 ， 我们 将 
layers.convolution2d 及 一 些 即 将 传 入 的 参数 放 入 arg_scope 中 ， 这 些 参数 通 剃 是 接 下 来 会 
被 重复 使 用 的 ， 把 它们 放 在 arg_scope 里 就 可 以 避免 重复 在 多 个 地 方 传 入 ， 这 里 需要 用 到 
的 参数 是 normalizer fn 和 normalizer params， 也 就 是 需要 用 到 的 标准 化 方程 及 它 所 需要 
的 参数 ， 一 但 在 arg scope 里 设置 了 这 些 ， 接 下 来 用 到 convolution2d0 时 融 不 用 重复 传 入 


normalizer_ fn 和 normalizer_params 这 两 个 参数 了 。 


with tf.contrib.framework.arg_scope( 
[tf.contrib.layers.convolution2d], 
normalizer_fn=tf.contrib.layers.batch_norm, 
normalizer_params={'decay': @.9}): 

net = tf.contrib.layers. convolution2d(images, 32535315 

net = tf. contrib. layers. convolution2d(net, 32, [3, 3]) 


可 以 看 到 ，TensorFlow 自动 帮 有 我 们 建立 好 了 默认 的 一 些 层 的 名 字 。 以 上 的 例子 里 ， 
我 们 可 以 通过 len(tf.contrib. framework.get_variables('Conv/BatchNorm' 办 得 到 第 一 个 
Conv/BatchNorm 层 的 长 度 。 


再 来 看 一 个 完全 连接 的 神经 网 络 层 fally_connected0 的 例子 。 首 先 ， 建 立 一 些 输 入 的 
和 矩阵， 用 血 lly_connected() 建 立 一 个 输出 7 个 神经 单元 的 神经 网 络 层 。 


height, width = 3, 3 
inputs = tf. random | uniform((5, height * width * 3), seed= 2 
with tf.name_scope('fe'): 


fc = tf.contrib.layers.fully_connected(inputs, 7, 
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outputs_collections='outputs', 
scope='fc') 
output_collected = tf.get collection('outputs' )[8] 
self.assertEquals(output_collected.alias, ‘fe/fc') 


值得 注意 的 一 些小 细节 是 ， 我 们 利用 thname_scope 将 截 下 来 的 运算 放 进 一 个 
name scope 里 ， 这 样 以 后 就 可 以 更 简单 地 找到 我 们 想 要 的 某 个 层 的 值 ， 我 们 在 
fully_connected() 里 传 入 一 个 scope, 然后 就 可 以 通过 “fe/fce”, 也 就 是 这 个 层 的 别 号 得 到 这 
个 层 的 一 些 信息 。 我 们 通过 传 入 的 outputs_collections， 可 以 直接 得 到 这 个 层 的 输出 。 


在 contrib.layers 里 有 许多 特别 方便 使 用 的 方法 ， 例如 ， 可 以 通过 repeat() 重 复 使 用 同 
样 的 参数 重复 建立 某 个 层 ， 例 如 y = repeat(x，3，conv2d，64，[3，3]，scope='conv10) 是 和 
以 下 代码 等 同 的 。 
x = conv2d(x, 64, [3, 3], scope='convi1/conv1i_1') 
x = conv2d(x, 64, [3, 3], scope='convi/conv1_2') 


y = conv2d(x, 64, [3, 3], scope='convi/conv1_3') 


可 以 使 用 stack0) 来 使 用 不 同 的 参数 建立 多 个 fully_connected() 层 ， 我 们 可 以 建立 一 个 
三 层 的 完全 连接 的 神经 网 络 ， 每 层 的 单元 数 分 别 为 32、64 和 128。 


y = stack(x, fully_connected, [32, 64, 128], scope='fc') 
以 上 代码 等 同 于 : 


x = fully_connected(x, 32, scope='fc/fc_1') 
x = fully _connected(x, 64, scope='fc/fc_2') 
y = fully_connected(x, 128, scope='fc/fc_3') 


注意 , stack 会 帮 你 建立 一 个 新 的 scope, 通过 在 scope 里 附加 一 个 增 量 , 例如 在 “fc” 
的 基础 上 加 上 “fe_1”、“fe_2” 等 ,之 前 提 到 的 repeat() 也 会 使 用 类 似 的 机 制 建立 新 的 scope。 


我 们 只 简单 介绍 一 些 在 深度 学 习 中 经 党 使 用 的 层 ,， 如 果 想 了 解 更 多 、 更 复杂 的 层 , 例 
如 conv2d transpose, conv2d in plane, separable conv2d 等 ， 可 以 参考 官方 文档 。 


11.2.2 ”损失 项 数 . 
Tf.contrib.losses 模块 里 包含 了 各 种 常用 的 损失 函数 ,适用 于 二 类 分 类 、 多 类 分 类 ， 以 
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及 回归 模型 等 各 式 名 样 的 机 器 学 习 算法 。 接 下 来 ,我 们 将 举例 说 明 它 们 的 使 用 方法 。 


我 们 先 以 绝对 差 值 举例 说 明 ,首先 用 给 constant 建立 一 些 predictions 和 targets 的 数列 。 
注意 ， 它 们 必须 是 同样 的 shape， 然 后 可 以 选择 性 地 建立 权重 ， 因 为 在 许多 实际 应 用 中 ， 
每 个 预测 值 的 权重 也 是 特别 关键 的 。 
predictions = tf.constant([4, 8, 12, 8, 1, 3], shape=(2, 3)) 
targets = tf.constant([1, 9, 2, -5, -2, 6], shape=(2, 3)) 
weight = tf.constant([1.2, 0.0], shape=[2,]) 


接着 ， 可 以 使 用 losses.absolute_difference() 计 算 这 组 预测 的 损失 值 ， 从 而 在 之 后 的 建 
模 中 起 到 引导 性 的 作用 。 


loss = tf.contrib.losses.absolute_difference(predictions, targets, weight) 


Be PK, 来 看 一 个 计算 softmax 22 IGN BIT, 这 种 方法 多 适用 于 多 类 分 类 的 机 器 学 
习 模 型 。 同 样 地 ， 我 们 先 建 立 predictions 和 labels， 与 之 前 不 一 样 的 是 ， 它 们 是 多 维 的 ， 
ERE softmax Z NAIS AMERY. YAIR, EJ losses.softmax _cross_entropy() 计 算 这 组 
预测 中 softmax 交叉 焙 的 值 。 注 意 ， 需 要 像 其 他 TensorFlow 的 应 用 一 样 使 用 loss.eval(0) 运 
行 得 到 它 的 值 。 可 以 从 loss.op.name 得 到 TensorFlow 上 自动 赋值 的 op 的 名 字 ， 这 个 情况 下 
它 是 'softmax cross_entropy loss/value'。 其 他 的 损失 函数 也 是 使 用 这 样 的 命名 习俗 。 


predictions = tf.constant([[10.6,0.0,0.0], [0.0,10.0,0.0], [0.0,0.0,10.0]]) 
labels = tf.constant([[1, ©, @], [@, 1, @], [@, ®, 1]]) 


loss = tf.contrib.losses.softmax_cross_entropy(predictions, labels) 
loss.eval() : 


loss.op.name 


其 他 的 损失 函数 的 使 用 方法 大 同 小 异 , 值得 注意 的 是 , 许多 损失 函数 里 有 许多 的 参数 
可 以 使 用 。 例 如 ， 可 以 使 用 softmax cross_entropy(0) 里 面 的 label smoothing 将 所 有 的 标识 
进行 平滑 ， 从 而 使 在 某 些 应 用 中 计算 出 来 的 softmax 22 SURE AA SCP FATE, 使 
用 方法 如 下 。 
logits = tf.constant([[109.0, -108.0, -100.0]]) 
labels = tf.constant([[1, ©, 8]]) 
label_smoothing = 0.1 : 
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loss = tf.contrib.losses.softmax_cross entropy(logits, labels, 


label _smoothing=label_ smoothing) 


许多 应 用 大 部 分 标识 的 分 布 都 比较 稀疏 ， 可 以 使 用 sparse_softmax _cross_entropy/(), 
这 样 计算 起 来 会 更 有 效率 。 
logits = tf.constant([[10.0, 0.0, 0.0], 0.0, 10.0, 0.0], [0.0, 8.0, 10.0]]) 


labels = tf.constant([[@], [1], [2]], dtype=tf.inte64) 


loss = tf.contrib.losses.sparse_softmax_cross_entropy(logits, labels) 


11.2.3 ”特征 列 Feature Column 


在 很 多 数据 科学 和 机 器 学 习 的 应 用 中 , 大 家 都 习惯 以 表格 的 形式 存储 和 处 理 数据 , 然 
后 将 数据 输入 机 器 学 习 模 型 中 。 处 理 数 据 的 方式 多 种 多 样 ， 例 如 Python PERZ 
Pandas 包 。 数 据 从 各 种 数据 源 得 来 ,经 过 各 种 方式 的 清理 、 算 选 、 合 并 ， 以 及 特征 工程 ， 
然后 进行 模型 的 建立 。 在 TensorFlow 里 怎样 更 好 地 进行 我 们 的 特征 工程 和 建 模 的 工作 
He? 


TF.contrib.layers 里 有 许多 高 阶 的 特征 列 (Feature Column ) API, 可 以 让 大 家 的 特征 
工程 更 有 效率 ， 然 后 紧密 地 和 TF.Learn 的 API 结合 使 用 ， 建 立 最 适合 自己 数据 的 模型 。 
接 下 来 ,我 们 将 介绍 如 何 使 用 这 些 高 阶 的 特征 列 API 及 如 何 和 TF.Leam 结合 使 用 。 


数据 里 一 般 包 含 连 续 特 征 (Continuous Feature) 及 类 别 特征 〈 Categorical Feature )。 
像 花 为 的 长 度 和 宽度 这 样 连续 的 数值 特征 称 为 连续 特征 ,我 们 可 以 直接 把 它们 用 在 模型 里 。 
如 果 特 征 代表 了 类 别 , 例如 性 别 、 种 族 这 样 的 不 连续 的 类 别 特征 , 那么 往往 需要 对 它们 进 
行 处 理 ， 例 如 将 它们 数值 化 ， 也 就 是 将 它们 转换 为 一 系列 的 数值 来 代表 每 个 不 同 的 类 别 。 
Feature Column API 可 以 很 方便 地 将 各 种 类 型 的 特征 转换 为 想 要 的 格式 。 


假设 读者 已 经 用 类 似 以 下 的 learn.datasets 的 API 来 读 入 数据 ， 例 如 ， 


training_set = learn.datasets.base.load_csv(filename=iris_training, 
. \ target_dtype= np.int) 
test set = learn.datasets.base.load_csv(filename=iris_testing, 


7 target_dtype=np.int) 


接 下 来 就 可 以 用 layers.FeatureColumn AY API 定义 一 些 特 征 列 ， 人 例如， 使 用 
real valued_column() 定 义 连续 的 特征 ( 如 年 龄 、 收 入 、 开 销 ， 以 及 工作 市 场 )。 
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from tf.contrib import layers 

age = layers.real_valued_column("age”) 

income = layers.real_valued_column("income”" ) 
spending = layers.real_valued_column("spending") 


hours_of_work = layers.real_valued_column("hours_of_work") 


"ARE, FA sparse column with keys0) 处 理 像 性 别 这 样 的 类 别 特征 。 


gender = layers.sparse_column_with_keys(column_name="gender”, 


keys=["female”, "male”]) 


注意 ， 使 用 sparse _column with keys0 前 ， 必 须要 知道 这 个 特征 所 有 可 能 的 值 ， 本 例 
中 ， 性 别 分 为 男性 和 女性 。 如 果 事 先 不 知道 所 有 可 能 的 值 ， 可 以 使 用 
sparse_column_with_hash_bucket() 将 特征 转换 为 特征 列 。 以 教育 程度 这 样 的 特征 为 例 ， 由 
于 对 数据 不 是 特别 熟悉 , 无 法 事先 知道 所 有 可 能 的 教育 程度 , 我 们 可 以 用 哈 希 表 建立 这 样 
的 特征 。 


education = layers.sparse column with hash bucket("education", 


hash_ bucket_ size= 1000) 


sparse column with keys() 及 sparse_column with hash_bucket() 都 和 E 将 数据 转换 为 
SparseColumn， 然 后 可 以 直接 在 TF.Learn 里 使 用 , (6A Estimator Œ, 

有 了 时, 在 数据 科学 的 应 用 中 , 一 些 连续 的 特征 可 能 需要 被 离散 化 ， 从 而 形成 新 的 类 别 
特征 , 这 样 能 更 好 地 代表 特征 和 目标 分 类 类 别 之 间 的 关系 。 例 如 年 龄 是 连续 特征 , 分 类 的 
类 别 是 职业 的 类 别 ( 如 经 理 、 猎 头等 )， 往 往 这 些 职业 的 类 别 和 年 龄 阶段 有 关 ， 而 不 是 简 
单 的 数值 年 龄 。 因 为 18 岁 、19 岁 、20 岁 往往 没有 明显 的 区 别 , 所 以 有 时 会 将 这 样 的 连续 
特征 区 间 化 和 离散 化 ， 例 如 将 18 岁 ~20 岁 分 为 一 类 。 在 FeatureColumn API 里 ,我 们 可 
以 很 快 地 进行 这 样 的 转换 。 
ager: range = layers. bucketized _column(age, boundaries= =[18, 25; 30, 35, 49, 

45, 50, 55, 68, 65]) 


在 以 上 的 例子 里 ， 使 用 bucketized_column() 将 之 前 的 年 龄 SparseColumn 进行 进一步 
的 区 上 则 化 ， 将 年 龄 段 分 为 18 岁 ~25 岁 、26 岁 ~30 岁 、31 岁 ~35 岁 ， 等 等 。 


在 许多 应 用 里 , 一 个 好 的 模型 不 仅 需 要 一 些 单独 的 特征 列 , 有 时 两 个 或 多 个 特征 之 间 
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的 综合 和 交互 与 目标 分 类 类 别 之 间 的 天 系 更 紧密 。 有 时 多 个 特征 之 间 是 相关 的 , 使 用 特征 
的 交互 往往 能 建立 更 有 效 的 模型 。 例 如 ,对 年 龄 、 职 业 和 种 族 这 三 个 特征 , 我 们 可 以 使 用 
crossed_ column() 建 立交 义 特 征 列 : 

combined = layers.crossed_column([age_range, race, occupation], 


hash_bucket_size=int(1e7) ) 


建立 好 各 式 各 样 的 特征 列 之 后 , 我 们 可 以 直接 将 它们 传 入 不 同 的 TF.Learn Estimator. 
以 下 面 这 个 简单 的 逻辑 回归 分 类 模型 为 例 ， 我 们 可 以 使 用 之 前 介绍 过 的 fit()、predict() 等 
方法 训练 和 评 信和 模型 。 


classifier = tf.contrib.learn.LinearClassifier(feature_columns=[ 
gender, education, occupation, combined, age range, race, income, 


spending], model _dir=model dir) 


1k BAe Te TR TE HARR, ESI APA Ra eK, 
例如 有 时 想 取 一 部 分 特征 的 加 权 求 和 作为 一 个 新 的 特征 列 ， 可 以 使 用 
weighted_sum_from_ feature_columns() 来 很 快 地 实现 。 读 者 可 以 在 官方 文档 里 找到 更 多 需 
要 的 函数 。 


11.2.4 Embeddings 


在 许多 深度 模型 应 用 中 , BAAS RN, SANA, 我 们 通常 先 把 它们 
转换 成 低 维 的 、 稠 密 的 实数 值 的 向 量 , 也 通常 将 它们 和 连续 特征 向 量 联合 起 来 , 一 起 输入 
进 神 经 网 络 模 型 中 进行 训练 和 优化 损失 函数 ， 这 些 被 统一 称 为 舱 入 向 量 (Embedding 
Vectors )。 大 部 分 文本 识别 都 是 先 将 文本 转换 成 铭 入 向 量 ， 然 后 对 它们 进行 分 析 并 用 在 模 
型 训练 中 。 


contrib.layers 模块 里 的 embedding_column0) 能 迅速 将 高 维 稀疏 的 类 别 特征 向 量 转 换 为 
读者 想 要 的 维 数 的 著 入 向 量 ， 以 下 是 一 个 例子 。 


embedding_columns = [ | 
tf.contrib.layers.embedding column(title, dimension=8), 
tf. contrib. layers.embedding_column(education, dimension=8), 
tf.contrib.layers.embedding column(gender, dimension=8), 
tf.contrib.layers.embedding column(race, dimension=8), 


tf.contrib.layers.embedding column(country, dimension=8) ] 
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这 里 的 title, education, gender, race, VAM country Ab tb RAMAR EAE, 
我 们 通过 使 用 embedding_column() ,把 它们 转换 为 低 维 数 的 稠密 向 量 ， 从 而 更 好 地 归纳 数 
据 中 的 特性 , 特别 是 当 一 组 特征 中 的 交互 矩 阵 比 较 稀 疏 , 级 别 比较 高 时 ,这 种 方法 会 使 模 
型 更 具有 概括 性 且 更 有 效 。 


接 下 来 ， 可 以 直接 将 它们 传 入 TF.Learn 的 Estimator 里 进行 模型 的 建立 、 训 练 ， 以 及 
评估 。 例 如 ， 可 以 将 embedding_columns 传 入 DNNLinearCombinedClassifier 里 的 深度 神 
经 网 络 特征 列 里 。 


est = tf.contrib.learn.DNNLinearCombinedClassifier( 
model _dir=model dir, 
linear_feature_columns=wide columns, 
dnn_feature_columns=embedding columns, 


dnn_hidden_units=[100, 50]) 


embedding columns() 是 contrib.layers 模块 里 最 简单 易 用 的 一 个 ， 当 涉及 实际 数据 时 ， 
许多 稀 玖 高 维 的 数据 里 通常 有 空 的 特征 及 无 效 的 ID， 这 时 可 以 使 用 
safe embedding lookup_sparse() 安 全 地 建立 藤 入 向 量 。 这 里 先 用 给 SparseTensor 建立 好 稀 
GAY ID 及 稀 朴 的 权重 。 


indices = [[@, 0]; [@, 1], [@, 2], [1, ®], [3, @], [4, 9], [4, 1]] 
了 LO 二 1 TEST] 

weights = [1.0, 2.0, 1.0, 1.0, 3.9, 0.0, -6.5] 

SpE = [5, 4] 


sparse_ids = tf.SparseTensor( | 
tf.constant(indices, tf.int64), tf.constant(ids, tf.int64), 
tf.constant(shape, tf.int64)) i 


sparse weights = tf.SparseTensor( 
tf.constant(indices, tf.int64), tf.constant(weights, tf.float32), 
tf.constant(shape， tf.int64)) 


接 下 来 ， 建 立 嵌入 向 量 的 权重 embedding weights， 这 取决 于 词汇 量 大 小 、 嵌 入 向 量 
维 数 ， 以 及 shard 数量 。 然 后 ， 使 用 initializerrun0 和 eval MMAR EWE, Ae 
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细节 和 参数 的 说 明 请 参考 最 新 的 官方 文档 。 


vocab size=4 
embed dim=4 
num_shards=1 
embedding weights = tf.create partitioned variables( 

shape=[vocab_size, embed dim], 

slicing=[num_shards, 1], . 

initializer=tf.truncated_normal_initializer(mean=0.8, 

stddev=1.0 / math.sqrt(vocab_size), dtype=tf.float32)) 
for w in embedding weights: 
W.initializer.run() 


embedding weights = [w.eval() for w in embedding weights] 


Ja, 可 以 使 用 safe embedding lookup_sparse() 将 原来 的 特征 向 量 安全 地 转换 为 低 维 
Wear igen ott a EA 


embedding lookup result = (tf.contrib.layers.safe_embedding lookup_sparse( 


embedding weights, RA E ES sparse_weights).eval()) 


11.3 “性 能 分 析 严 tfprof 


TensorFlow 也 在 Contrib 模块 里 提供 了 自己 的 性 能 分 析 器 ttprof， 可 以 通过 它 帮助 分 
析 模 型 的 架构 及 衡量 系统 的 性 能 。 它 涵盖 了 许多 实用 的 功能 , 例如 衡量 模型 的 参数 、 浮 点 
运算 、op 执行 时 间 、 要 求 的 存储 大 小 、 探 索 模 型 的 结构 等 。 本 已 将 简单 地 介绍 一 些 功 能 

首先 ， 通 过 以 下 命令 安装 tfprof 命令 行 的 工具 。 
bazel build -c opt tensorflow/contrib/tfprof/.. 

可 以 通 过 以 下 命 pp 邻 查询 帮助 文件 。 


bazel-bin/tensorflow/contrib/tfprof/tools/tfprof/tfprof help 


可 以 执行 互动 模式 ， 然 后 指定 graph_path 来 分 析 模 型 的 shape 和 参数 。 


bazel-bin/tensorflow/contrib/tfprof/tools/tfprof/tfprof \ 
--graph path=/graph.pbtxt 
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类 似 地 ， 我 们 用 graph_path 和 checkpoint_path 查看 checkpoint Tensor 的 数据 和 相 
对 应 的 值 。 
bazel-bin/tensorflow/contrib/tfprof/tools/tfprof/tfprof \ 
--graph_path=graph.pbtxt \ 
--checkpoint_path=model.ckpt 


与 此 同时 ， 我 们 可 以 多 提供 一 个 run_meta_path 来 查看 不 同 op 请 求 的 存储 和 计时 。 


bazel-bin/tensorflow/contrib/tfprof/tools/tfprof/tfprof \ 
--graph_path=graph.pbtxt \ 
--run_meta_path=run_meta \ 


--checkpoint_path=model.ckpt 


值得 注意 的 是 , 上 面 用 到 了 run meta path graph path 和 checkpoint path 几 个 路 径 ， 
我 们 是 怎么 得 到 这 几 种 类 型 的 文件 的 呢 ? 


graph_path 的 文件 是 GraphDef 文本 文件 ， 用 来 在 内 存 里 建立 模型 的 代表 ， 例 如 用 
tf.Supervisor 写 出 来 的 graph.pbtxt 就 是 一 个 GraphDef 文本 文件 的 例子 。 如 果 不 使 用 
tf.Supervisor， 那 么 可 以 使 用 给 Graph.as_graph_def0 或 者 其 他 类 似 的 API 存储 模型 的 定义 
到 一 个 GraphDef 文件 里 。 


run meta path 所 需 的 文件 是 tensorflow::RunMetadata 的 结果 ,这 个 方程 是 用 来 得 到 模 
型 中 每 个 op 所 需 的 存储 和 时 间 消 耗 的， 以 下 简单 的 几 行 代码 可 以 写 出 一 个 RunMetadata 
文件 。 
run_options = config pb2.RunOptions( 
trace_level=config_pb2.RunOptions.FULL_TRACE) 
run_metadata = config_pb2.RunMetadata() 
_ = self._sess.run(..., options nineepei one: run_metadata=run_ metadata) 
with gfile.Open(os.path.join(output_dir, “run_meta"), “w") as f: 
 f.write(run_metadata.SerializeToString() ) 
checkpoint_path 是 模型 的 checkpoint, 它 包含 了 所 有 checkpoint 的 变量 的 op 类 型 shape 
和 它们 的 值 。 


读者 也 可 以 提供 其 他 的 路 径 ， 例 如 op_log_path 路 径 ， 它 是 tensorflow::tfprof::OpLog 
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的 结果 , 包含 了 额外 的 op 的 信息 ， 由 于 它 包 含 了 op 的 组 的 类 别名 字 , 用 户 可 以 很 简单 地 
综合 op 的 一 些 数据 ， 而 不 会 不 小 心 错过 其 中 一 部 分 op。 以 下 用 一 个 又 露出 来 的 API 来 很 
快 地 写 出 了 一 个 OpLog 文件 。 


tf.contrib.tfprof.tfprof_logger.write_op log(graph, log dir, op_log=None) 


由 于 tfprof 是 一 个 CLI 命令 行 的 工具 ， 当 输入 之 前 的 tirof 命令 按 下 回 车 键 时 , 会 进 
入 互动 模式 ， 再 按 一 下 回 车 键 会 看 到 一 些 类 似 以 下 的 命令 行 参数 的 默认 值 。 


tfprof> 


-max_depth 4 
-min_bytes O 
-min_micros 9 
-min_params 9 
-min_float_ops 9 

-device regexes ot 
-order_by name 
-account_type_regexes Variable 
-start_name_regexes $7 
-trim_name_regexes 

-show_name_regexes aa 3 
-hide_name_regexes VariableInitialized_ [@-9]+,save\/.*,*zeros[@-9_]* 


-account_displayed_op_only false 
-select params 
-Viz false 


-dump_to file 
然后 就 可 以 调节 里 面 的 参数 ， 例 如 用 show_name_regexes 查找 scope 名 字 正 则 式 为 
unit 1 0.*gamma，max depth 为 5 的 变量 ， 查 看 这 些 tensor 的 值 : 
tfprof> scope -show_name_regexes unit 1 6.*gamma -select tensor_value \ 
-max_depth 5 | 
读者 会 得 到 类 似 以 下 符合 条 件 的 tensor 的 值 : 


unit 1 8/shared activation/init bn/gamma () 


[1.80 2.10 2.06 1.91 2.26 1.86 1.81 1.37 1.78 1.85 1.96 1.54 2.04 2.34 2.22 
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1.99 ], 

unit 1 @/sub2/bn2/gamma () 

[Lo S715eshesOel. 2521.59) 1.14 42 26-0.82 1-19-4510 1,48 1.01-0.8221 2357-71 
1.14 ] 


tfprof 提供 了 两 种 类 型 的 分 析 : scope 和 graph。 当 读者 想 查看 一 些 变量 和 scope 的 值 
的 时 候 , 你 可 以 使 用 scope， 也 就 是 我 们 上 面 阐述 过 的 例子 。 当 读者 想 查 看 op 在 graph 里 
所 花 的 内 存 和 时 间 时 ， 可 以 使 用 graph 查看 。 


类 似 地 ， 可 以 改动 一 些 命 令 行 参 数 , 例如 使 用 start_ name regexes 选择 想 要 查看 的 op 
的 名 字 ， 这 里 我 们 假设 需要 查看 命名 为 cost 的 损失 op 的 内 存 和 时 间 花 费 的 情况 : 


tfprof> graph -start name regexes cost.* -max_depth 100 -min_micros 109009 \ 


-select micros -account_type regexes .* 


init/init_conv/Conv2D (11.75ms/3.10sec) : 
random_shuffle_queue DequeueMany (3.@9sec/3.@9sec) 
unit_1_@/sub2/conv2/Conv2D (74.14ms/3.19sec) 
unit_1_3/sub2/conv2/Conv2D (60.75ms/3.34sec) 

unit 2 _A/sub2/conv2/Conv2D (73.58ms/3.54sec) 

unit _3. _3/sub2/conv2/Conv2D (18. 26ms/3. 60sec) 


我 们 就 乞 简单 地 介绍 以 上 这 些 模块 , 这 一 部 分 变化 很 大 , 更 多 的 功能 还 需要 读者 自己 
摸索 并 查看 官方 文档 。 
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PPmoney 大 数据 算法 总 监 ， 负 责 集团 的 风 控 、 理 财 、 互 联网 证 券 等 业务 的 数据 挖 
据 工 作 。Google TensorFlow Contributor。 前 明 略 数据 技术 合伙 人 ， 领 导 了 对 诸多 
大 型 银行 、 保 险 公司 、 基 金 的 数据 挖掘 项 目 ， 包括 建立 金融 风 控 模型 、 新 闻 和 与 
情 分 析 、 保 险 复 购 预测 等 。 曾 就 职 于 阿里 巴巴 搜索 引擎 算法 团队 ， 负 责 天 猫 个 
性 化 搜索 系统 . 曾 参 加 阿里 巴巴 大 数据 推荐 算法 大 赛 ， 于 7000 多 支队 伍 中 获得 
前 10 名 。 本 科 、 研 究 生 就 读 于 香港 科技 大 学 ， 曾 在 顶级 会 议和 期 刊 SIGMOBILE 
MobiCom IEEE Transactions on Image Processine 发 表 论 文 ， 人 研究 成 果 获 美国 计 
算 机 协会 移动 计算 大 会 ( MobiCom ) 最 佳 移 动 应 用 技术 冠军 ， 并 获得 两 项 美国 
专利 和 一 项 中 国 专利 . 





目前 在 芝加哥 的 Uptake 公 司 带 领 团队 建立 用 于 多 个 物 联网 领域 的 数据 科学 引擎 进 
行 条 件 和 健康 监控 ， 也 建立 了 公司 的 预测 模型 引擎 ， 现 在 被 用 于 航空 、 能 源 等 
大 型 机 械 领 域 。 一 直 活 跃 在 开源 软件 社区 ， 是 TensorFlow 和 DMLC 的 成 员 ， 是 
TensorFlow 、XGBoost、MXNet 等 软件 的 committer，TF.Learn 、ggfortify 等 软件 
的 作者 ， 以 及 caret 、pandas 等 软件 的 贡献 者 。 曾 获得 谷歌 Open Source Peer Bonus, 
以 及 多 项 高 校 和 企业 编程 竞赛 的 奖项 。 在 美国 宾 州 州立 大 学 获得 荣誉 数学 学 位 ， 
曾 在 本 科学 : 习 期 间 成 为 创业 公司 DataNovo 的 核心 创始 成 员 ， 研 究 专 利 数 据 挖掘 、 
无 关键 字 现 有 技术 搜索 、 策 略 推荐 等 ， 
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